Fix scaled_params append error in AdamW. (#28633)

guoshengCS · web-flow · commit a3bc3bcd4854 · 2020-11-16T14:32:58.000+08:00
Fix no_grad setting in AdamW.
test=develop
diff --git a/python/paddle/optimizer/adamw.py b/python/paddle/optimizer/adamw.py
@@ -15,6 +15,7 @@
 from .optimizer import Optimizer
 from .adam import Adam
 from ..fluid import framework
+from ..fluid.dygraph import base as imperative_base
 import paddle
 from paddle.fluid.dygraph.parallel import apply_collective_grads
 
@@ -171,13 +172,14 @@ def _scale_parameters(self, params_and_grads):
                 learning_rate = self._learning_rate()
             with param.block.program._optimized_guard(
                 [param, grad]), framework.name_scope('weight decay'):
+                scaled_params.append(
+                    (param, grad, param * self._coeff * learning_rate))
                 if param.name not in self._params_name:
-                    scaled_params.append(
-                        (param, grad, param * self._coeff * learning_rate))
                     self._params_name.add(param.name)
                     param = param * self._coeff
         return scaled_params
 
+    @imperative_base.no_grad
     def minimize(self,
                  loss,
                  startup_program=None,
@@ -207,6 +209,7 @@ def minimize(self,
         return optimize_ops, params_grads
 
     @framework.dygraph_only
+    @imperative_base.no_grad
     def step(self):
         if paddle.distributed.get_world_size() > 1:
             apply_collective_grads(self._parameter_list)
@@ -227,7 +230,7 @@ def step(self):
                 [param, grad]), framework.name_scope('weight decay'):
                 updated_param = paddle.fluid.layers.elementwise_sub(
                     x=param, y=scaled_param)
-                param.set_value(updated_param.numpy())
+                paddle.fluid.layers.assign(input=updated_param, output=param)
         self._apply_optimize(
             loss=None, startup_program=None, params_grads=params_grads)