NVIDIA-NeMo · yaoyu-33 · Jun 17, 2025 · Jun 16, 2025 · Jun 16, 2025
diff --git a/nemo/collections/vlm/llama4/model/base.py b/nemo/collections/vlm/llama4/model/base.py
@@ -161,6 +161,7 @@ def configure_model(self, tokenizer, vp_stage: Optional[int] = None) -> "MCoreNe
         # set token_drop setting from config
         self.language_transformer_config.moe_pad_expert_input_to_capacity = self.moe_pad_expert_input_to_capacity
         self.language_transformer_config.moe_expert_capacity_factor = self.moe_expert_capacity_factor
+        self.language_transformer_config.tp_comm_overlap = self.tp_comm_overlap
 
         # During fake lightning initialization, pass 0 to bypass the assertion that vp_stage must be
         # non-None when using virtual pipeline model parallelism