Oneflow-Inc · ShawnXuan · Jan 25, 2022 · Jan 25, 2022
diff --git a/RecommenderSystems/dlrm/config.py b/RecommenderSystems/dlrm/config.py
@@ -93,6 +93,12 @@ def str_list(x):
     parser.add_argument(
         "--value_memory_kind", type=str_list, default="device,host"
     )
+    parser.add_argument(
+        "--use_fp16", action="store_true", help="Run model with amp"
+    )
+    parser.add_argument(
+        "--loss_scale_policy", type=str, default="static", help="static or dynamic"
+    )
     parser.add_argument(
         "--test_name", type=str, default="noname_test"
     )

diff --git a/RecommenderSystems/dlrm/graph.py b/RecommenderSystems/dlrm/graph.py
@@ -2,10 +2,12 @@
 
 
 class DLRMValGraph(flow.nn.Graph):
-    def __init__(self, wdl_module, dataloader):
+    def __init__(self, wdl_module, dataloader, use_fp16=False):
         super(DLRMValGraph, self).__init__()
         self.module = wdl_module
         self.dataloader = dataloader
+        if use_fp16:
+            self.config.enable_amp(True)
 
     def build(self):
         (
@@ -22,12 +24,15 @@ def build(self):
 
 
 class DLRMTrainGraph(flow.nn.Graph):
-    def __init__(self, wdl_module, dataloader, bce_loss, optimizer, lr_scheduler=None):
+    def __init__(self, wdl_module, dataloader, bce_loss, optimizer, lr_scheduler=None, grad_scaler=None, use_fp16=False):
         super(DLRMTrainGraph, self).__init__()
         self.module = wdl_module
         self.dataloader = dataloader
         self.bce_loss = bce_loss
         self.add_optimizer(optimizer, lr_sch=lr_scheduler)
+        if use_fp16:
+            self.config.enable_amp(True)
+            self.set_grad_scaler(grad_scaler)
 
     def build(self):
         (

diff --git a/RecommenderSystems/dlrm/train.py b/RecommenderSystems/dlrm/train.py
@@ -57,15 +57,24 @@ def __init__(self):
             self.dlrm_module.parameters(), lr=args.learning_rate
         )
         self.lr_scheduler = make_lr_scheduler(args, self.opt)
+        if args.loss_scale_policy == "static":
+            self.grad_scaler = flow.amp.StaticGradScaler(1024)
+        else:
+            self.grad_scaler = flow.amp.GradScaler(
+                init_scale=1073741824,
+                growth_factor=2.0,
+                backoff_factor=0.5,
+                growth_interval=2000,
+            )
 
         self.loss = flow.nn.BCELoss(reduction="none").to("cuda")
         if self.execution_mode == "graph":
             self.eval_graph = DLRMValGraph(
-                self.dlrm_module, self.val_dataloader
+                self.dlrm_module, self.val_dataloader, args.use_fp16
             )
             self.train_graph = DLRMTrainGraph(
                 self.dlrm_module, self.train_dataloader, self.loss, self.opt, 
-                self.lr_scheduler
+                self.lr_scheduler, self.grad_scaler, args.use_fp16
             )
 
     def init_model(self):