[misc] feat: remove redundant default params (volcengine#3577)

techkang · gemini-code-assist[bot] · vermouth1992 · masoudhashemi · commit 88b5bc7efc72 · 2025-10-18T16:07:48.000-04:00
### What does this PR do? This PR introduces two changes: 1. Removal of redundant default parameters: Default optimizer values are already set in the .yaml configuration file. Defining them again in other files is redundant and can cause confusion for users. 2. Alignment of warm-up step logic: Changed the condition from `num_warmup_steps < 0` to `num_warmup_steps <= 0`. This aligns the code with the documentation in the YAML file and matches the implementation in Megatron. https://github.com/volcengine/verl/blob/main/verl/trainer/config/actor/actor.yaml#L132 --------- Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Chi Zhang <zhangchi.usc1992@bytedance.com> Co-authored-by: Changlong Yu <changlong.ycl@gmail.com>
diff --git a/verl/trainer/config/actor/actor.yaml b/verl/trainer/config/actor/actor.yaml
@@ -120,7 +120,7 @@ optim:
   # Learning rate
   lr: 1e-6
 
-  # Warmup steps ratio (used if lr_warmup_steps is negative)
+  # Warmup steps ratio (used if lr_warmup_steps is 0 or negative)
   lr_warmup_steps_ratio: 0.0
 
   # Total training steps (must be overridden at runtime)
diff --git a/verl/utils/megatron/optimizer.py b/verl/utils/megatron/optimizer.py
@@ -23,11 +23,11 @@
 
 def init_megatron_optim_config(optim_config: dict) -> OptimizerConfig:
     optim_args = {
-        "optimizer": optim_config.get("optimizer", "adam"),
-        "lr": optim_config.get("lr"),
-        "min_lr": optim_config.get("min_lr", None),
-        "clip_grad": optim_config.get("clip_grad", 1.0),
-        "weight_decay": optim_config.get("weight_decay", 0.01),
+        "optimizer": optim_config.optimizer,
+        "lr": optim_config.lr,
+        "min_lr": optim_config.min_lr,
+        "clip_grad": optim_config.clip_grad,
+        "weight_decay": optim_config.weight_decay,
         "bf16": True,
         "params_dtype": torch.bfloat16,
         "use_distributed_optimizer": True,
diff --git a/verl/workers/engine/fsdp/transformer_impl.py b/verl/workers/engine/fsdp/transformer_impl.py
@@ -375,13 +375,13 @@ def _build_lr_scheduler(self, optimizer):
 
         optim_config = self.optimizer_config
 
-        total_steps = optim_config.get("total_training_steps", 0)
-        num_warmup_steps = int(optim_config.get("lr_warmup_steps", -1))
-        warmup_style = optim_config.get("warmup_style", "constant")
-        min_lr_ratio = optim_config.get("min_lr_ratio", 0.0)
-        num_cycles = optim_config.get("num_cycles", 0.5)
-        if num_warmup_steps < 0:
-            num_warmup_steps_ratio = optim_config.get("lr_warmup_steps_ratio", 0.0)
+        total_steps = optim_config.total_training_steps
+        num_warmup_steps = optim_config.lr_warmup_steps
+        warmup_style = optim_config.warmup_style
+        min_lr_ratio = optim_config.min_lr_ratio
+        num_cycles = optim_config.num_cycles
+        if num_warmup_steps <= 0:
+            num_warmup_steps_ratio = optim_config.lr_warmup_steps_ratio
             num_warmup_steps = int(num_warmup_steps_ratio * total_steps)
 
         if self.rank == 0: