Changing learning rate and time step to inputs from attributes

Abhinav Arora · Abhinav Arora · commit abd618161af0 · 2017-10-02T21:02:27.000-07:00
diff --git a/paddle/operators/adamax_op.cc b/paddle/operators/adamax_op.cc
@@ -31,6 +31,10 @@ class AdamaxOp : public framework::OperatorWithKernel {
                    "Input(moment) of AdamaxOp should not be null.");
     PADDLE_ENFORCE(ctx->HasInput("inf_norm"),
                    "Input(inf_norm) of AdamaxOp should not be null.");
+    PADDLE_ENFORCE(ctx->HasInput("learning_rate"),
+                   "Input(learning_rate) of AdamaxOp should not be null.");
+    PADDLE_ENFORCE(ctx->HasInput("time_step"),
+                   "Input(time_step) of AdamaxOp should not be null.");
 
     PADDLE_ENFORCE(ctx->HasOutput("param_out"),
                    "Output(param_out) of AdamaxOp should not be null.");
@@ -62,15 +66,15 @@ class AdamaxOpMaker : public framework::OpProtoAndCheckerMaker {
       : OpProtoAndCheckerMaker(proto, op_checker) {
     AddInput("param", "Input parameter");
     AddInput("grad", "Input gradient");
+    AddInput("learning_rate", "Learning rate");
     AddInput("moment", "First moment");
     AddInput("inf_norm", "Input exponentially weighted infinity norm");
+    AddInput("time_step", "Time step");
 
     AddOutput("param_out", "Output parameter");
     AddOutput("moment_out", "Output first moment");
     AddOutput("inf_norm_out", "Output exponentially weighted infinity norm");
 
-    AddAttr<int>("time_step", "Time step");
-    AddAttr<float>("learning_rate", "Learning rate");
     AddAttr<float>("beta_1",
                    "exponential decay rate for the 1st moment estimates.");
     AddAttr<float>(
diff --git a/paddle/operators/adamax_op.h b/paddle/operators/adamax_op.h
@@ -37,11 +37,11 @@ class AdamaxOpKernel : public framework::OpKernel<T> {
     moment_out->mutable_data<T>(ctx.GetPlace());
     norm_out->mutable_data<T>(ctx.GetPlace());
 
-    float lr = ctx.Attr<float>("learning_rate");
     float beta_1 = ctx.Attr<float>("beta_1");
     float beta_2 = ctx.Attr<float>("beta_2");
     float epsilon = ctx.Attr<float>("epsilon");
-    int t = ctx.Attr<int>("time_step");
+    float lr = *ctx.Input<float>("learning_rate");
+    int t = *ctx.Input<int>("time_step");
 
     auto p = EigenVector<T>::Flatten(*ctx.Input<Tensor>("param"));
     auto g = EigenVector<T>::Flatten(*ctx.Input<Tensor>("grad"));
diff --git a/python/paddle/v2/framework/tests/test_adamax_op.py b/python/paddle/v2/framework/tests/test_adamax_op.py
@@ -22,17 +22,13 @@ def setUp(self):
             'param': param,
             'grad': grad,
             'moment': moment,
-            'inf_norm': inf_norm
-        }
-
-        self.attrs = {
+            'inf_norm': inf_norm,
             'time_step': time_step,
-            'learning_rate': learning_rate,
-            'beta_1': beta_1,
-            'beta_2': beta_2,
-            'epsilon': epsilon
+            'learning_rate': learning_rate
         }
 
+        self.attrs = {'beta_1': beta_1, 'beta_2': beta_2, 'epsilon': epsilon}
+
         moment_out = beta_1 * moment + (1 - beta_1) * grad
         inf_norm_out = np.maximum(beta_2 * inf_norm + epsilon, np.abs(grad))
         lr_t = (learning_rate / (1 - beta_1**time_step))