[Auto Parallel] fix enable_delay_scale_loss for static auto parallel … by zhangyuqin1998 · Pull Request #68525 · PaddlePaddle/Paddle

zhangyuqin1998 · 2024-09-29T09:35:48Z

PR Category

Auto Parallel

PR Types

Bug fixes

Description

修复动静半自动并行中，针对enable_delay_scale_loss的行为。在自动并行中，默认使用enable_delay_scale_loss的逻辑。
动态图手动的enable_delay_scale_loss的逻辑中，会先在sp/dp/sharding并行组对grad进行规约，再对规约的结果除以acc的step数。但目前自动并行的实现中，先对每个add的grad除以acc的step数，再在sp/dp/sharding并行组对grad进行规约。这种做法在grad较小时会有数值精度损失的风险。

因此，本pr：
（1）适配动态图自动并行的逻辑，强制在优化器更新前触发通信，然后对梯度进行scale
（2）适配静态图自动并行的逻辑，适配auto_parallel_gradient_merge_pass，将grad的scale移动到reduce通信后进行

Pcard-76459

paddle-bot · 2024-09-29T09:35:52Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

JZ-LIANG

LGTM

JZ-LIANG · 2024-10-08T04:07:39Z

    return grad_to_gradient_merge


+def _find_trival_optimizer_ops(block):


这里只用 name string 判断 optimizer op 未来很容易遗漏，后续可能想一下用一个固定 opt_op_name_list 统一维护。

…&& fix sharding degree

From00

LGTM

jeff41404 · 2024-10-12T07:02:13Z

单独看这个API，增加默认值参数是兼容性升级
但是最好看看套件中现有使用方式是否需要同步修改，比如 paddlenlp 的 auto_trainer.py 中，既调用了shard_optimizer（如果不修改调用方式则默认 gradient_accumulation_steps=1），但是如果用户启动训练时同时也传入了非1的gradient_accumulation_steps，是否就会有影响

zhangyuqin1998 · 2024-10-12T07:06:04Z

单独看这个API，增加默认值参数是兼容性升级但是最好看看套件中现有使用方式是否需要同步修改，比如 paddlenlp 的 auto_trainer.py 中，既调用了shard_optimizer（如果不修改调用方式则默认 gradient_accumulation_steps=1），但是如果用户启动训练时同时也传入了非1的gradient_accumulation_steps，是否就会有影响

在auto_trainer中也做了对应的修改：PaddlePaddle/PaddleNLP#9217 ，用户如果自己调用，也不会遇到问题

jeff41404 · 2024-10-12T07:19:22Z

单独看这个API，增加默认值参数是兼容性升级但是最好看看套件中现有使用方式是否需要同步修改，比如 paddlenlp 的 auto_trainer.py 中，既调用了shard_optimizer（如果不修改调用方式则默认 gradient_accumulation_steps=1），但是如果用户启动训练时同时也传入了非1的gradient_accumulation_steps，是否就会有影响

在auto_trainer中也做了对应的修改：PaddlePaddle/PaddleNLP#9217 ，用户如果自己调用，也不会遇到问题

ok, thanks

jeff41404

LGTM

SigureMo

LGTMeow for type annotation update

…&& fix sharding degree (PaddlePaddle#68525)

zhangyuqin1998 force-pushed the fix_enable_delay_scale_loss branch from daab76a to 1bed945 Compare October 1, 2024 04:48

JZ-LIANG previously approved these changes Oct 8, 2024

View reviewed changes

zhangyuqin1998 dismissed JZ-LIANG’s stale review via 5c6d75d October 8, 2024 08:37

[Auto Parallel] fix enable_delay_scale_loss for static auto parallel …

d7c8913

…&& fix sharding degree

zhangyuqin1998 force-pushed the fix_enable_delay_scale_loss branch from 5c6d75d to d7c8913 Compare October 8, 2024 08:44

From00 approved these changes Oct 12, 2024

View reviewed changes

jeff41404 approved these changes Oct 12, 2024

View reviewed changes

SigureMo approved these changes Oct 12, 2024

View reviewed changes

From00 merged commit 88d4de6 into PaddlePaddle:develop Oct 12, 2024

zhangyuqin1998 added a commit to zhangyuqin1998/Paddle that referenced this pull request Oct 28, 2024

[Auto Parallel] fix enable_delay_scale_loss for static auto parallel …

f668f2b

…&& fix sharding degree (PaddlePaddle#68525)

zhangyuqin1998 mentioned this pull request Oct 28, 2024

[Auto Parallel] fix enable_delay_scale_loss for static auto parallel … #68994

Closed

zhangyuqin1998 deleted the fix_enable_delay_scale_loss branch March 6, 2025 07:09

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Auto Parallel] fix enable_delay_scale_loss for static auto parallel …#68525

[Auto Parallel] fix enable_delay_scale_loss for static auto parallel …#68525
From00 merged 1 commit into
PaddlePaddle:developfrom
zhangyuqin1998:fix_enable_delay_scale_loss

zhangyuqin1998 commented Sep 29, 2024 •

edited

Loading

Uh oh!

paddle-bot Bot commented Sep 29, 2024

Uh oh!

JZ-LIANG left a comment

Uh oh!

JZ-LIANG Oct 8, 2024

Uh oh!

From00 left a comment

Uh oh!

jeff41404 commented Oct 12, 2024

Uh oh!

zhangyuqin1998 commented Oct 12, 2024 •

edited

Loading

Uh oh!

jeff41404 commented Oct 12, 2024

Uh oh!

jeff41404 left a comment

Uh oh!

SigureMo left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

		return grad_to_gradient_merge


		def _find_trival_optimizer_ops(block):

Conversation

zhangyuqin1998 commented Sep 29, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

PR Category

PR Types

Description

Uh oh!

paddle-bot Bot commented Sep 29, 2024

Uh oh!

JZ-LIANG left a comment

Choose a reason for hiding this comment

Uh oh!

JZ-LIANG Oct 8, 2024

Choose a reason for hiding this comment

Uh oh!

From00 left a comment

Choose a reason for hiding this comment

Uh oh!

jeff41404 commented Oct 12, 2024

Uh oh!

zhangyuqin1998 commented Oct 12, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

jeff41404 commented Oct 12, 2024

Uh oh!

jeff41404 left a comment

Choose a reason for hiding this comment

Uh oh!

SigureMo left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

zhangyuqin1998 commented Sep 29, 2024 •

edited

Loading

zhangyuqin1998 commented Oct 12, 2024 •

edited

Loading