[sglang] fix: only wake up weights on infer_tp 0 (#2403)

zhaochenyang20 · web-flow · commit ee6542248be2 · 2025-07-07T13:24:56.000-07:00
diff --git a/verl/workers/sharding_manager/fsdp_sglang.py b/verl/workers/sharding_manager/fsdp_sglang.py
@@ -173,7 +173,11 @@ async def wake_up(self):
         get_torch_device().empty_cache()
         log_gpu_memory_usage("After del state_dict and empty_cache in sharding manager", logger=logger)
 
-        if self.multi_stage_wake_up and self.rollout_config.free_cache_engine:
+        if (
+            self.multi_stage_wake_up
+            and self.rollout_config.free_cache_engine
+            and self.device_mesh["infer_tp"].get_local_rank() == 0
+        ):
             await self.inference_engine.resume_memory_occupation(tags=["kv_cache"])
             log_gpu_memory_usage("After resume SGLang kv_cache in sharding manager", logger=logger)