volcengine · wuxibin89 · Aug 23, 2025 · Aug 22, 2025 · gemini-code-assist · Aug 22, 2025
diff --git a/verl/workers/sharding_manager/megatron_sglang.py b/verl/workers/sharding_manager/megatron_sglang.py
@@ -28,7 +28,7 @@
 from torch.distributed.device_mesh import DeviceMesh
 
 from verl.protocol import DataProto, all_gather_data_proto
-from verl.utils.device import get_torch_device
+from verl.utils.device import get_torch_device, set_expandable_segments
 from verl.utils.megatron_utils import (
     load_megatron_model_to_gpu,
     offload_megatron_model_to_cpu,
@@ -178,6 +178,9 @@ async def wake_up(self):
                 self.transformer_config,
                 self.layer_name_mapping,
             )
+
+        set_expandable_segments(False)
+
         await self.update_weights(per_tensor_param)
         if self.offload_param:
             offload_megatron_model_to_cpu(self.actor_module)
@@ -199,6 +202,8 @@ async def sleep(self):
         # add empty cache after each compute
         aggressive_empty_cache(force_sync=True)
 
+        set_expandable_segments(True)
+
         # restore random states
         if self.device_mesh is not None:
             self.gen_random_states = get_torch_device().get_rng_state()

diff --git a/verl/workers/sharding_manager/megatron_vllm.py b/verl/workers/sharding_manager/megatron_vllm.py
@@ -30,7 +30,7 @@
 from verl.protocol import all_gather_data_proto
 from verl.third_party.vllm import LLM, VLLM_SLEEP_LEVEL
 from verl.third_party.vllm import parallel_state as vllm_ps
-from verl.utils.device import get_torch_device
+from verl.utils.device import get_torch_device, set_expandable_segments
 from verl.utils.megatron_utils import load_megatron_model_to_gpu, offload_megatron_model_to_cpu, per_tensor_generator
 from verl.utils.memory_utils import aggressive_empty_cache
 from verl.utils.profiler import GPUMemoryLogger, log_gpu_memory_usage
@@ -149,6 +149,8 @@ def __enter__(self):
             if self.offload_param:
                 load_megatron_model_to_gpu(self.actor_module, load_grad=False)
 
+            set_expandable_segments(False)
+
             if self.rollout_config.free_cache_engine:
                 if "tags" in inspect.signature(self.inference_engine.wake_up).parameters:
                     self.inference_engine.wake_up(tags=["weights"])
@@ -196,6 +198,8 @@ def __exit__(self, exc_type, exc_value, traceback):
 
         aggressive_empty_cache(force_sync=True)
 
+        set_expandable_segments(True)
+
         # restore random states
         if self.device_mesh is not None:
             self.gen_random_states = get_torch_device().get_rng_state()