From 302575e93bc537c10832e87b2162c75ebef14957 Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Fri, 8 Aug 2025 09:15:09 +0000
Subject: [PATCH 01/18] update

---
 verl/workers/rollout/rollout_worker.py | 153 +++++++++++++++++++++++++
 1 file changed, 153 insertions(+)
 create mode 100644 verl/workers/rollout/rollout_worker.py

diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
new file mode 100644
index 00000000000..e291e003df3
--- /dev/null
+++ b/verl/workers/rollout/rollout_worker.py
@@ -0,0 +1,153 @@
+# Copyright 2024 Bytedance Ltd. and/or its affiliates
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+
+from dataclasses import dataclass, field
+
+import torch
+
+from verl.single_controller.base import Worker
+from verl import DataProto
+import ray
+
+
+from verl.base_config import BaseConfig
+
+from verl.utils.device import (
+    get_device_id,
+    get_device_name,
+    get_nccl_backend,
+    get_torch_device,
+    is_cuda_available,
+    is_npu_available,
+)
+
+
+@dataclass
+class SamplingConfig(BaseConfig):
+    temperature: float = 1.0
+    top_k: int = -1
+    top_p: float = 1.0
+    do_sample: bool = True
+    n: int = 1
+
+
+
+@dataclass
+class EngineConfig(BaseConfig):
+    pass
+
+
+@dataclass
+class vLLMEngineConfig(EngineConfig):
+    swap_space: int = None
+    disable_mm_preprocessor_cache: bool = True
+
+
+@dataclass
+class SGLangEngineConfig(EngineConfig):
+    attention_backend: str = None
+
+
+@dataclass
+class MultiTurnConfig(BaseConfig):
+    enable: bool = False
+    max_assistant_turns: int = None
+    tool_config_path: str = None
+    max_user_turns: int = None
+    max_parallel_calls: int = 1
+    max_tool_response_length: int = 256
+    tool_response_truncate_side: str = "middle"
+    interaction_config_path: str = None
+    use_inference_chat_template: bool = False
+    tokenization_sanity_check_mode: str = "strict"
+    format: str = "hermes"
+
+
+@dataclass
+class AgentLoopConfig(BaseConfig):
+    num_workers: int = 8
+    agent_loop_config_path: str = None
+
+
+
+@dataclass
+class RolloutConfig(BaseConfig):
+    name: str
+    mode: str = "sync"
+
+    train_sampling_config: SamplingConfig = field(default_factory=SamplingConfig)
+    val_sampling_config: SamplingConfig = field(default_factory=SamplingConfig)
+
+    prompt_length: int = 512
+    response_length: int = 512
+    dtype: str = "bfloat16"
+    gpu_memory_utilization: float = 0.5
+    ignore_eos: bool = False
+    enforce_eager: bool = True
+    free_cache_engine: bool = True
+    tensor_model_parallel_size: int = 2
+    max_num_batched_tokens: int = 8192
+    max_model_len: int = None
+    max_num_seqs: int = 1024
+
+    # note that the logprob computation should belong to the 
+    log_prob_micro_batch_size_per_gpu: int = None
+    log_prob_use_dynamic_bsz: bool = False
+    log_prob_max_token_len_per_gpu: int = 16384
+
+    disable_log_stats: bool = True
+    
+    multi_stage_wake_up: bool = False
+    engine_kwargs: EngineConfig = field(default_factory=EngineConfig)
+
+    calculate_log_probs: bool = False
+    update_weights_bucket_megabytes: int = 512
+
+
+
+@ray.remote
+class RolloutWorker(Worker):
+    def __init__(self, config: RolloutConfig) -> None:
+        super().__init__()
+        import torch.distributed
+
+        if not torch.distributed.is_initialized():
+            rank = int(os.environ.get("RANK", 0))
+            world_size = int(os.environ.get("WORLD_SIZE", 1))
+            torch.distributed.init_process_group(
+                backend=f"cpu:gloo,{get_device_name()}:{get_nccl_backend()}",
+                rank=rank,
+                world_size=world_size,
+                timeout=datetime.timedelta(seconds=self.config.get("nccl_timeout", 600)),
+                init_method=os.environ.get("DIST_INIT_METHOD", None),
+            )
+
+        # build rollout engine here
+
+
+        # setup device mesh binding logics
+
+
+
+    def generate_sequences(self, data: DataProto):
+        """Given a batch of prompts, return a batch of responses. Internally, it can use 
+        """
+        pass
+
+    
+    
+
+
+

From 2dae82dddc1cbba16dcc4757895b8883df933de7 Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Fri, 8 Aug 2025 09:36:32 +0000
Subject: [PATCH 02/18] update

---
 verl/workers/rollout/rollout_worker.py | 46 ++++++++++++++++++++++----
 1 file changed, 39 insertions(+), 7 deletions(-)

diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index e291e003df3..b92601c4d7b 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -17,10 +17,14 @@
 
 import torch
 
+import os
+import datetime
+
 from verl.single_controller.base import Worker
 from verl import DataProto
 import ray
 
+from verl.single_controller.base.decorator import register, make_nd_compute_dataproto_dispatch_fn
 
 from verl.base_config import BaseConfig
 
@@ -121,26 +125,54 @@ class RolloutConfig(BaseConfig):
 class RolloutWorker(Worker):
     def __init__(self, config: RolloutConfig) -> None:
         super().__init__()
+        self.config = config
         import torch.distributed
 
+        self.device_name = get_device_name()
+
         if not torch.distributed.is_initialized():
             rank = int(os.environ.get("RANK", 0))
             world_size = int(os.environ.get("WORLD_SIZE", 1))
             torch.distributed.init_process_group(
-                backend=f"cpu:gloo,{get_device_name()}:{get_nccl_backend()}",
+                backend=f"cpu:gloo,{self.device_name}:{get_nccl_backend()}",
                 rank=rank,
                 world_size=world_size,
                 timeout=datetime.timedelta(seconds=self.config.get("nccl_timeout", 600)),
                 init_method=os.environ.get("DIST_INIT_METHOD", None),
             )
 
-        # build rollout engine here
-
-
-        # setup device mesh binding logics
-
-
+        from torch.distributed.device_mesh import init_device_mesh
+
+        # TODO(sgm): support FSDP hybrid shard for larger model
+        infer_tp = self.config.tensor_model_parallel_size
+        dp = self.world_size // infer_tp
+        assert self.world_size % infer_tp == 0, (
+            f"rollout world_size: {self.world_size} is not divisible by infer_tp: {infer_tp}"
+        )
+        rollout_device_mesh = init_device_mesh(
+            self.device_name, mesh_shape=(dp, infer_tp), mesh_dim_names=["dp", "infer_tp"]
+        )
+
+        rollout_name = self.config.name
+
+        if rollout_name == "hf":
+            self._register_dispatch_collect_info("rollout", dp_rank=self.rank, is_collect=True)
+        else:
+            is_collect = rollout_device_mesh["infer_tp"].get_local_rank() == 0
+            self._register_dispatch_collect_info(
+                "rollout", dp_rank=rollout_device_mesh["dp"].get_local_rank(), is_collect=is_collect
+            )
 
+        # build rollout engine here
+        if self.config.name == "hf":
+            pass
+        elif self.config.name == "vllm":
+            pass
+        elif self.config.name == "sglang":
+            pass
+
+        
+    @register(dispatch_mode=make_nd_compute_dataproto_dispatch_fn(mesh_name="infer"))
     def generate_sequences(self, data: DataProto):
         """Given a batch of prompts, return a batch of responses. Internally, it can use 
         """

From 0a15ec9266519fd54d8efbd21caff1dd451b6977 Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Mon, 11 Aug 2025 20:00:23 +0800
Subject: [PATCH 03/18] update

---
 verl/trainer/config/rollout/rollout.yaml |  11 +++
 verl/workers/config/__init__.py          |   5 +-
 verl/workers/config/rollout.py           | 119 +++++++++++++++++++++++
 verl/workers/fsdp_workers.py             |  12 ++-
 verl/workers/rollout/rollout_worker.py   |  62 ++++++++++--
 5 files changed, 192 insertions(+), 17 deletions(-)
 create mode 100644 verl/workers/config/rollout.py

diff --git a/verl/trainer/config/rollout/rollout.yaml b/verl/trainer/config/rollout/rollout.yaml
index e7295a4d900..503dde43a5a 100644
--- a/verl/trainer/config/rollout/rollout.yaml
+++ b/verl/trainer/config/rollout/rollout.yaml
@@ -1,3 +1,6 @@
+# Target class for this configuration
+_target_: verl.workers.config.RolloutConfig
+
 # actor_rollout_ref.rollout.name: hf/vllm/sglang. The default value will be removed in the future
 name: ???
 
@@ -84,9 +87,11 @@ multi_stage_wake_up: false
 
 # Extra inference engine arguments (vllm, sglang).
 engine_kwargs:
+  _target_: verl.workers.config.EngineConfig
 
   # for vllm
   vllm:
+    _target_: verl.workers.config.vLLMEngineConfig
 
     # Swap space (in GB) used by inference engine. null uses default (e.g., 4 GB).
     swap_space: null
@@ -96,12 +101,14 @@ engine_kwargs:
 
   # for sglang
   sglang:
+    _target_: verl.workers.config.SGLangEngineConfig
 
     # The attention backend for sglang engine. Options: flashinfer, triton, flashmla, null for default.
     attention_backend: null
 
 # Sampling parameters used during validation.
 val_kwargs:
+  _target_: verl.workers.config.SamplingConfig
 
   # sampling parameters for validation
   # Top-k sampling parameter. -1 for vLLM rollout, 0 for HF rollout.
@@ -121,6 +128,7 @@ val_kwargs:
 
 # Multi-turn interaction config for tools or chat.
 multi_turn:
+  _target_: verl.workers.config.MultiTurnConfig
 
   # set to True for multi-turn tool interaction tasks; should set rollout.name to sglang as well
   enable: False
@@ -169,6 +177,7 @@ calculate_log_probs: False
 
 # [Experimental] agent loop based rollout configs
 agent:
+  _target_: verl.workers.config.AgentLoopConfig
 
   # Number of agent loop workers
   num_workers: 8
@@ -187,6 +196,7 @@ agent:
 
   # custom async server configs
   custom_async_server:
+    _target_: verl.workers.config.CustomAsyncServerConfig
 
     # Path to the custom async server implementation
     path: null
@@ -210,6 +220,7 @@ update_weights_bucket_megabytes: 512
 
 # trace rollout data
 trace:
+  _target_: verl.workers.config.TraceConfig
 
   # trace backend, support mlflow, weave
   backend: null
diff --git a/verl/workers/config/__init__.py b/verl/workers/config/__init__.py
index ca9937e9e99..e7180c96094 100644
--- a/verl/workers/config/__init__.py
+++ b/verl/workers/config/__init__.py
@@ -16,6 +16,7 @@
 from .actor import *  # noqa
 from .engine import *  # noqa
 from .optimizer import *  # noqa
-from . import actor, critic, engine, optimizer
+from .rollout import *  # noqa
+from . import actor, critic, engine, optimizer, rollout
 
-__all__ = actor.__all__ + critic.__all__ + engine.__all__ + optimizer.__all__
+__all__ = actor.__all__ + critic.__all__ + engine.__all__ + optimizer.__all__ + rollout.__all__
diff --git a/verl/workers/config/rollout.py b/verl/workers/config/rollout.py
new file mode 100644
index 00000000000..06bcd4fbc09
--- /dev/null
+++ b/verl/workers/config/rollout.py
@@ -0,0 +1,119 @@
+from dataclasses import dataclass, field
+from verl.base_config import BaseConfig
+
+
+__all__ = ["SamplingConfig", "vLLMEngineConfig", "SGLangEngineConfig", "EngineConfig", 
+           "MultiTurnConfig", "CustomAsyncServerConfig", "AgentLoopConfig", "TraceConfig", "RolloutConfig"]
+
+@dataclass
+class SamplingConfig(BaseConfig):
+    temperature: float = 1.0
+    top_k: int = -1
+    top_p: float = 1.0
+    do_sample: bool = True
+    n: int = 1
+
+
+@dataclass
+class vLLMEngineConfig(BaseConfig):
+    swap_space: int = None
+    disable_mm_preprocessor_cache: bool = True
+
+
+@dataclass
+class SGLangEngineConfig(BaseConfig):
+    attention_backend: str = None
+
+
+@dataclass
+class EngineConfig(BaseConfig):
+    vllm: vLLMEngineConfig = field(default_factory=vLLMEngineConfig)
+    sglang: SGLangEngineConfig = field(default_factory=SGLangEngineConfig)
+
+
+
+@dataclass
+class MultiTurnConfig(BaseConfig):
+    enable: bool = False
+    max_assistant_turns: int = None
+    tool_config_path: str = None
+    max_user_turns: int = None
+    max_parallel_calls: int = 1
+    max_tool_response_length: int = 256
+    tool_response_truncate_side: str = "middle"
+    interaction_config_path: str = None
+    use_inference_chat_template: bool = False
+    tokenization_sanity_check_mode: str = "strict"
+    format: str = "hermes"
+
+
+@dataclass
+class CustomAsyncServerConfig(BaseConfig):
+    path: str = None
+    name: str = None
+
+
+@dataclass
+class AgentLoopConfig(BaseConfig):
+    num_workers: int = 8
+    agent_loop_config_path: str = None
+    custom_async_server: CustomAsyncServerConfig = field(default_factory=CustomAsyncServerConfig)
+
+
+@dataclass
+class TraceConfig(BaseConfig):
+    backend: str = None
+    token2text: bool = False
+
+
+@dataclass
+class RolloutConfig(BaseConfig):
+    name: str
+    mode: str = "sync"
+
+    temperature: float = 1.0
+    top_k: int = -1
+    top_p: float = 1.0
+    do_sample: bool = True
+    n: int = 1
+
+    prompt_length: int = 512
+    response_length: int = 512
+
+    dtype: str = "bfloat16"
+    gpu_memory_utilization: float = 0.5
+    ignore_eos: bool = False
+    enforce_eager: bool = True
+    cudagraph_capture_sizes: list = None
+    free_cache_engine: bool = True
+    tensor_model_parallel_size: int = 2
+    max_num_batched_tokens: int = 8192
+
+    # TODO: enable train_kwargs
+    # train_sampling_config: SamplingConfig = field(default_factory=SamplingConfig)
+
+    val_kwargs: SamplingConfig = field(default_factory=SamplingConfig)
+
+    max_model_len: int = None
+    max_num_seqs: int = 1024
+
+    # note that the logprob computation should belong to the actor
+    log_prob_micro_batch_size: int = None
+    log_prob_micro_batch_size_per_gpu: int = None
+    log_prob_use_dynamic_bsz: bool = False
+    log_prob_max_token_len_per_gpu: int = 16384
+
+    disable_log_stats: bool = True
+    
+    multi_stage_wake_up: bool = False
+    engine_kwargs: EngineConfig = field(default_factory=EngineConfig)
+
+    calculate_log_probs: bool = False
+
+    multi_turn: MultiTurnConfig = field(default_factory=MultiTurnConfig)
+    
+    update_weights_bucket_megabytes: int = 512
+
+    skip_rollout: bool = False
+    skip_dump_dir: str = "/tmp/rollout_dump"
+
diff --git a/verl/workers/fsdp_workers.py b/verl/workers/fsdp_workers.py
index 32ff55e036b..3dea025afa6 100644
--- a/verl/workers/fsdp_workers.py
+++ b/verl/workers/fsdp_workers.py
@@ -75,7 +75,7 @@
 from verl.utils.profiler import DistProfiler, DistProfilerExtension, ProfilerConfig, log_gpu_memory_usage, simple_timer
 from verl.utils.profiler.performance import reduce_timing
 from verl.utils.py_functional import convert_to_regular_types
-from verl.workers.config import FSDPCriticConfig, FSDPEngineConfig
+from verl.workers.config import FSDPCriticConfig, FSDPEngineConfig, RolloutConfig
 from verl.workers.sharding_manager.fsdp_ulysses import FSDPUlyssesShardingManager
 
 logger = logging.getLogger(__file__)
@@ -513,11 +513,13 @@ def _build_rollout(self, trust_remote_code=False):
                 "rollout", dp_rank=rollout_device_mesh["dp"].get_local_rank(), is_collect=is_collect
             )
 
+        rollout_config: RolloutConfig = omega_conf_to_dataclass(self.config.rollout)
+
         if rollout_name == "hf":
             from verl.workers.rollout import HFRollout
             from verl.workers.sharding_manager.base import BaseShardingManager
 
-            rollout = HFRollout(module=self.actor_module_fsdp, config=self.config.rollout)
+            rollout = HFRollout(module=self.actor_module_fsdp, config=rollout_config)
             rollout_sharding_manager = BaseShardingManager()
             # TODO: a sharding manager that do nothing?
 
@@ -535,10 +537,10 @@ def _build_rollout(self, trust_remote_code=False):
             # lora_kwargs = {}
             from verl.workers.rollout.vllm_rollout import vLLMAsyncRollout
 
-            vllm_rollout_cls = vLLMRollout if self.config.rollout.mode == "sync" else vLLMAsyncRollout
+            vllm_rollout_cls = vLLMRollout if rollout_config.mode == "sync" else vLLMAsyncRollout
             rollout = vllm_rollout_cls(
                 model_path=local_path,
-                config=self.config.rollout,
+                config=rollout_config,
                 tokenizer=self.tokenizer,
                 model_hf_config=self.actor_model_config,
                 device_mesh=rollout_device_mesh,
@@ -577,7 +579,7 @@ def _build_rollout(self, trust_remote_code=False):
             log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
             rollout = SGLangRollout(
                 actor_module=local_path,
-                config=self.config.rollout,
+                config=rollout_config,
                 processing_class=self.processor if self.processor is not None else self.tokenizer,
                 model_hf_config=self.actor_model_config,
                 trust_remote_code=trust_remote_code,
diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index b92601c4d7b..8ad9c3e4e1a 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -16,6 +16,7 @@
 from dataclasses import dataclass, field
 
 import torch
+import logging
 
 import os
 import datetime
@@ -25,6 +26,8 @@
 import ray
 
 from verl.single_controller.base.decorator import register, make_nd_compute_dataproto_dispatch_fn
+from verl.utils.profiler import log_gpu_memory_usage
+from verl.utils.fs import copy_to_local
 
 from verl.base_config import BaseConfig
 
@@ -94,6 +97,8 @@ class RolloutConfig(BaseConfig):
     train_sampling_config: SamplingConfig = field(default_factory=SamplingConfig)
     val_sampling_config: SamplingConfig = field(default_factory=SamplingConfig)
 
+    model_path: str = None
+
     prompt_length: int = 512
     response_length: int = 512
     dtype: str = "bfloat16"
@@ -121,6 +126,10 @@ class RolloutConfig(BaseConfig):
 
 
 
+logger = logging.getLogger(__file__)
+logger.setLevel(os.getenv("VERL_LOGGING_LEVEL", "WARN"))
+
+
 @ray.remote
 class RolloutWorker(Worker):
     def __init__(self, config: RolloutConfig) -> None:
@@ -164,12 +173,50 @@ def __init__(self, config: RolloutConfig) -> None:
             )
 
         # build rollout engine here
-        if self.config.name == "hf":
-            pass
-        elif self.config.name == "vllm":
-            pass
+        if self.config.name == "vllm":
+            from verl.workers.rollout.vllm_rollout import vLLMRollout
+
+            log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
+            local_path = copy_to_local(self.config.model.path, use_shm=self.config.model.get("use_shm", False))
+            lora_kwargs = (
+                {"lora_kwargs": {"enable_lora": True, "max_loras": 1, "max_lora_rank": self._lora_rank}}
+                if self._is_lora
+                else {}
+            )
+            from verl.workers.rollout.vllm_rollout import vLLMAsyncRollout
+
+            vllm_rollout_cls = vLLMRollout if self.config.rollout.mode == "sync" else vLLMAsyncRollout
+            rollout = vllm_rollout_cls(
+                model_path=local_path,
+                config=self.config.rollout,
+                tokenizer=self.tokenizer,
+                model_hf_config=self.actor_model_config,
+                device_mesh=rollout_device_mesh,
+                trust_remote_code=trust_remote_code,
+                **lora_kwargs,
+            )
         elif self.config.name == "sglang":
-            pass
+            from verl.workers.rollout.sglang_rollout.sglang_rollout import SGLangRollout
+
+            # NOTE(linjunrong): Due to recent fp8 support in SGLang. Now importing any symbol relate to
+            # SGLang's model_runner would check CUDA device capability. However, due to verl's setting,
+            # the main process of ray can not find any CUDA device, which would potentially lead to:
+            # "RuntimeError: No CUDA GPUs are available".
+            # For this reason, sharding_manager.__init__ should not import FSDPSGLangShardingManager and
+            # we import it here use the abs path.
+            # check: https://github.com/sgl-project/sglang/blob/00f42707eaddfc2c0528e5b1e0094025c640b7a0/python/sglang/srt/layers/quantization/fp8_utils.py#L76
+            from verl.workers.sharding_manager.fsdp_sglang import FSDPSGLangShardingManager
+
+            local_path = copy_to_local(self.config.model.path)
+            log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
+            rollout = SGLangRollout(
+                actor_module=local_path,
+                config=self.config.rollout,
+                processing_class=self.processor if self.processor is not None else self.tokenizer,
+                model_hf_config=self.actor_model_config,
+                trust_remote_code=trust_remote_code,
+            )
+            log_gpu_memory_usage(f"After building {rollout_name} rollout", logger=logger)
 
         
     @register(dispatch_mode=make_nd_compute_dataproto_dispatch_fn(mesh_name="infer"))
@@ -178,8 +225,3 @@ def generate_sequences(self, data: DataProto):
         """
         pass
 
-    
-    
-
-
-

From 8d675744295e022898195ff629c4757ad6415a7e Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Wed, 13 Aug 2025 17:06:54 +0800
Subject: [PATCH 04/18] fix

---
 verl/trainer/config/rollout/rollout.yaml | 8 --------
 1 file changed, 8 deletions(-)

diff --git a/verl/trainer/config/rollout/rollout.yaml b/verl/trainer/config/rollout/rollout.yaml
index b4bfb6fbd93..be903a79f27 100644
--- a/verl/trainer/config/rollout/rollout.yaml
+++ b/verl/trainer/config/rollout/rollout.yaml
@@ -87,11 +87,9 @@ multi_stage_wake_up: false
 
 # Extra inference engine arguments (vllm, sglang).
 engine_kwargs:
-  _target_: verl.workers.config.EngineConfig
 
   # for vllm
   vllm:
-    _target_: verl.workers.config.vLLMEngineConfig
 
     # Swap space (in GB) used by inference engine. null uses default (e.g., 4 GB).
     swap_space: null
@@ -101,14 +99,12 @@ engine_kwargs:
 
   # for sglang
   sglang:
-    _target_: verl.workers.config.SGLangEngineConfig
 
     # The attention backend for sglang engine. Options: flashinfer, triton, flashmla, null for default.
     attention_backend: null
 
 # Sampling parameters used during validation.
 val_kwargs:
-  _target_: verl.workers.config.SamplingConfig
 
   # Required when using verl.utils.omega_conf_to_dataclass to instantiate dataclass configs
   _target_: verl.workers.config.SamplingConfig
@@ -131,7 +127,6 @@ val_kwargs:
 
 # Multi-turn interaction config for tools or chat.
 multi_turn:
-  _target_: verl.workers.config.MultiTurnConfig
 
   # Required when using verl.utils.omega_conf_to_dataclass to instantiate dataclass configs
   _target_: verl.workers.config.MultiTurnConfig
@@ -183,7 +178,6 @@ calculate_log_probs: False
 
 # [Experimental] agent loop based rollout configs
 agent:
-  _target_: verl.workers.config.AgentLoopConfig
 
   # Required when using verl.utils.omega_conf_to_dataclass to instantiate dataclass configs
   _target_: verl.workers.config.AgentLoopConfig
@@ -205,7 +199,6 @@ agent:
 
   # custom async server configs
   custom_async_server:
-    _target_: verl.workers.config.CustomAsyncServerConfig
 
     # Required when using verl.utils.omega_conf_to_dataclass to instantiate dataclass configs
     _target_: verl.workers.config.CustomAsyncServerConfig
@@ -232,7 +225,6 @@ update_weights_bucket_megabytes: 512
 
 # trace rollout data
 trace:
-  _target_: verl.workers.config.TraceConfig
 
   # Required when using verl.utils.omega_conf_to_dataclass to instantiate dataclass configs
   _target_: verl.workers.config.TraceConfig

From 51e700f548d34ab02bb2ee819eb149c275fcc0ec Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Wed, 13 Aug 2025 18:50:30 +0800
Subject: [PATCH 05/18] update

---
 verl/workers/config/model.py           |  0
 verl/workers/config/rollout.py         |  3 +-
 verl/workers/rollout/rollout_worker.py | 98 +++-----------------------
 3 files changed, 13 insertions(+), 88 deletions(-)
 create mode 100644 verl/workers/config/model.py

diff --git a/verl/workers/config/model.py b/verl/workers/config/model.py
new file mode 100644
index 00000000000..e69de29bb2d
diff --git a/verl/workers/config/rollout.py b/verl/workers/config/rollout.py
index 370a61f928c..46ead45bea4 100644
--- a/verl/workers/config/rollout.py
+++ b/verl/workers/config/rollout.py
@@ -12,6 +12,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+from omegaconf import MISSING
 from dataclasses import dataclass, field
 from typing import Optional
 
@@ -77,7 +78,7 @@ class TraceConfig(BaseConfig):
 class RolloutConfig(BaseConfig):
     _mutable_fields = {"max_model_len"}
 
-    name: Optional[str] = None
+    name: Optional[str] = MISSING
     mode: str = "sync"
 
     temperature: float = 1.0
diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index 8ad9c3e4e1a..4d788eca632 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -30,6 +30,9 @@
 from verl.utils.fs import copy_to_local
 
 from verl.base_config import BaseConfig
+from verl.workers.config.rollout import RolloutConfig
+
+from verl.utils import hf_processor, hf_tokenizer
 
 from verl.utils.device import (
     get_device_id,
@@ -40,90 +43,7 @@
     is_npu_available,
 )
 
-
-@dataclass
-class SamplingConfig(BaseConfig):
-    temperature: float = 1.0
-    top_k: int = -1
-    top_p: float = 1.0
-    do_sample: bool = True
-    n: int = 1
-
-
-
-@dataclass
-class EngineConfig(BaseConfig):
-    pass
-
-
-@dataclass
-class vLLMEngineConfig(EngineConfig):
-    swap_space: int = None
-    disable_mm_preprocessor_cache: bool = True
-
-
-@dataclass
-class SGLangEngineConfig(EngineConfig):
-    attention_backend: str = None
-
-
-@dataclass
-class MultiTurnConfig(BaseConfig):
-    enable: bool = False
-    max_assistant_turns: int = None
-    tool_config_path: str = None
-    max_user_turns: int = None
-    max_parallel_calls: int = 1
-    max_tool_response_length: int = 256
-    tool_response_truncate_side: str = "middle"
-    interaction_config_path: str = None
-    use_inference_chat_template: bool = False
-    tokenization_sanity_check_mode: str = "strict"
-    format: str = "hermes"
-
-
-@dataclass
-class AgentLoopConfig(BaseConfig):
-    num_workers: int = 8
-    agent_loop_config_path: str = None
-
-
-
-@dataclass
-class RolloutConfig(BaseConfig):
-    name: str
-    mode: str = "sync"
-
-    train_sampling_config: SamplingConfig = field(default_factory=SamplingConfig)
-    val_sampling_config: SamplingConfig = field(default_factory=SamplingConfig)
-
-    model_path: str = None
-
-    prompt_length: int = 512
-    response_length: int = 512
-    dtype: str = "bfloat16"
-    gpu_memory_utilization: float = 0.5
-    ignore_eos: bool = False
-    enforce_eager: bool = True
-    free_cache_engine: bool = True
-    tensor_model_parallel_size: int = 2
-    max_num_batched_tokens: int = 8192
-    max_model_len: int = None
-    max_num_seqs: int = 1024
-
-    # note that the logprob computation should belong to the 
-    log_prob_micro_batch_size_per_gpu: int = None
-    log_prob_use_dynamic_bsz: bool = False
-    log_prob_max_token_len_per_gpu: int = 16384
-
-    disable_log_stats: bool = True
-    
-    multi_stage_wake_up: bool = False
-    engine_kwargs: EngineConfig = field(default_factory=EngineConfig)
-
-    calculate_log_probs: bool = False
-    update_weights_bucket_megabytes: int = 512
-
+from transformers import AutoConfig
 
 
 logger = logging.getLogger(__file__)
@@ -172,6 +92,10 @@ def __init__(self, config: RolloutConfig) -> None:
                 "rollout", dp_rank=rollout_device_mesh["dp"].get_local_rank(), is_collect=is_collect
             )
 
+        self.tokenizer = hf_tokenizer(local_path, trust_remote_code=trust_remote_code)
+        self.processor = hf_processor(local_path, trust_remote_code=trust_remote_code)
+        self.model_config = AutoConfig.from_pretrained(local_path)
+
         # build rollout engine here
         if self.config.name == "vllm":
             from verl.workers.rollout.vllm_rollout import vLLMRollout
@@ -185,10 +109,10 @@ def __init__(self, config: RolloutConfig) -> None:
             )
             from verl.workers.rollout.vllm_rollout import vLLMAsyncRollout
 
-            vllm_rollout_cls = vLLMRollout if self.config.rollout.mode == "sync" else vLLMAsyncRollout
+            vllm_rollout_cls = vLLMRollout if self.config.mode == "sync" else vLLMAsyncRollout
             rollout = vllm_rollout_cls(
                 model_path=local_path,
-                config=self.config.rollout,
+                config=self.config,
                 tokenizer=self.tokenizer,
                 model_hf_config=self.actor_model_config,
                 device_mesh=rollout_device_mesh,
@@ -211,7 +135,7 @@ def __init__(self, config: RolloutConfig) -> None:
             log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
             rollout = SGLangRollout(
                 actor_module=local_path,
-                config=self.config.rollout,
+                config=self.config,
                 processing_class=self.processor if self.processor is not None else self.tokenizer,
                 model_hf_config=self.actor_model_config,
                 trust_remote_code=trust_remote_code,

From bfbfe1cb5e1a200a3cac927f16189853b01fa244 Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Thu, 14 Aug 2025 19:32:30 +0800
Subject: [PATCH 06/18] add model config

---
 verl/workers/config/__init__.py        |  5 +-
 verl/workers/config/model.py           | 90 ++++++++++++++++++++++++++
 verl/workers/rollout/rollout_worker.py | 32 ++++-----
 3 files changed, 110 insertions(+), 17 deletions(-)

diff --git a/verl/workers/config/__init__.py b/verl/workers/config/__init__.py
index e7180c96094..5ca50cfe0cd 100644
--- a/verl/workers/config/__init__.py
+++ b/verl/workers/config/__init__.py
@@ -17,6 +17,7 @@
 from .engine import *  # noqa
 from .optimizer import *  # noqa
 from .rollout import *  # noqa
-from . import actor, critic, engine, optimizer, rollout
+from .model import *  # noqa
+from . import actor, critic, engine, optimizer, rollout, model
 
-__all__ = actor.__all__ + critic.__all__ + engine.__all__ + optimizer.__all__ + rollout.__all__
+__all__ = actor.__all__ + critic.__all__ + engine.__all__ + optimizer.__all__ + rollout.__all__ + model.__all__
diff --git a/verl/workers/config/model.py b/verl/workers/config/model.py
index e69de29bb2d..8c62f3cec34 100644
--- a/verl/workers/config/model.py
+++ b/verl/workers/config/model.py
@@ -0,0 +1,90 @@
+# Copyright 2025 Bytedance Ltd. and/or its affiliates
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from omegaconf import MISSING
+from verl.base_config import BaseConfig
+from dataclasses import dataclass, field
+from typing import Optional
+
+from transformers import AutoConfig, AutoTokenizer, PretrainedConfig, PreTrainedTokenizer, GenerationConfig
+
+from verl.utils.model import get_generation_config, update_model_config
+
+__all__ = ["HFModelConfig"]
+
+
+@dataclass
+class HFModelConfig(BaseConfig):
+    # note that we separate model_path, model_config_path and tokenizer_path in case they are different
+    model_path: str = MISSING
+    hf_config_path: Optional[str] = None
+    tokenizer_path: Optional[str] = None
+
+    hf_config: PretrainedConfig = None
+    generation_config: GenerationConfig = None
+    tokenizer: PreTrainedTokenizer = None
+
+    # whether to use shared memory
+    use_shm: bool = False
+    trust_remote_code: bool = False
+
+    # custom chat template for the model
+    custom_chat_template: Optional[str] = None
+
+    external_lib: Optional[str] = None
+
+    override_model_config: dict = field(default_factory=dict)
+
+    enable_gradient_checkpointing: bool = True
+    enable_activation_offload: bool = False
+
+    use_remove_padding: bool = False
+
+    # lora related. We may setup a separate config later
+    lora_rank: int = 0
+    lora_alpha: int = 16
+    target_modules: Optional[str] = "all-linear"
+
+    exclude_modules: Optional[str] = None
+    use_liger: bool = False
+    
+    use_fused_kernels: bool = False
+    fused_kernel_options: dict = field(default_factory=dict)
+
+    def __post_init__(self):
+        if self.hf_config_path is None:
+            self.hf_config_path = self.model_path
+        if self.tokenizer_path is None:
+            self.tokenizer_path = self.model_path
+
+        # constuct tokenizer
+        self.tokenizer: PreTrainedTokenizer = AutoTokenizer.from_pretrained(self.tokenizer_path, trust_remote_code=self.trust_remote_code, 
+                                                                            attn_implementation="flash_attention_2")
+        self.generation_config = get_generation_config(self.hf_config_path, trust_remote_code=self.trust_remote_code)
+
+        # constuct hf_config
+        self.hf_config = AutoConfig.from_pretrained(self.hf_config_path)
+
+        override_config_kwargs = {
+            "bos_token_id": self.tokenizer.bos_token_id,
+            "eos_token_id": self.tokenizer.eos_token_id,
+            "pad_token_id": self.tokenizer.pad_token_id,
+        }
+        override_config_kwargs.update(self.override_model_config)
+        update_model_config(self.hf_config, override_config_kwargs=override_config_kwargs)
+
+        # per model patch
+        if getattr(self.hf_config, "model_type", None) == "kimi_vl":
+            self.hf_config.text_config.topk_method = "greedy"
+
diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index 4d788eca632..87f4dd2cd1b 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -31,6 +31,7 @@
 
 from verl.base_config import BaseConfig
 from verl.workers.config.rollout import RolloutConfig
+from verl.workers.config.model import HFModelConfig
 
 from verl.utils import hf_processor, hf_tokenizer
 
@@ -52,10 +53,10 @@
 
 @ray.remote
 class RolloutWorker(Worker):
-    def __init__(self, config: RolloutConfig) -> None:
+    def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
         super().__init__()
-        self.config = config
         import torch.distributed
+        from torch.distributed.device_mesh import init_device_mesh
 
         self.device_name = get_device_name()
 
@@ -70,7 +71,8 @@ def __init__(self, config: RolloutConfig) -> None:
                 init_method=os.environ.get("DIST_INIT_METHOD", None),
             )
 
-        from torch.distributed.device_mesh import init_device_mesh
+        self.config = config
+        self.model_config = model_config
 
         # TODO(sgm): support FSDP hybrid shard for larger model
         infer_tp = self.config.tensor_model_parallel_size
@@ -92,19 +94,19 @@ def __init__(self, config: RolloutConfig) -> None:
                 "rollout", dp_rank=rollout_device_mesh["dp"].get_local_rank(), is_collect=is_collect
             )
 
-        self.tokenizer = hf_tokenizer(local_path, trust_remote_code=trust_remote_code)
-        self.processor = hf_processor(local_path, trust_remote_code=trust_remote_code)
-        self.model_config = AutoConfig.from_pretrained(local_path)
+        self.tokenizer = hf_tokenizer(local_path, trust_remote_code=self.model_config.trust_remote_code)
+        self.processor = hf_processor(local_path, trust_remote_code=self.model_config.trust_remote_code)
+        self.hf_config = AutoConfig.from_pretrained(local_path)
 
         # build rollout engine here
         if self.config.name == "vllm":
             from verl.workers.rollout.vllm_rollout import vLLMRollout
 
             log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
-            local_path = copy_to_local(self.config.model.path, use_shm=self.config.model.get("use_shm", False))
+            local_path = copy_to_local(self.model_config.model_path, use_shm=self.model_config.use_shm)
             lora_kwargs = (
-                {"lora_kwargs": {"enable_lora": True, "max_loras": 1, "max_lora_rank": self._lora_rank}}
-                if self._is_lora
+                {"lora_kwargs": {"enable_lora": True, "max_loras": 1, "max_lora_rank": self.model_config.lora_rank}}
+                if self.model_config.lora_rank > 0
                 else {}
             )
             from verl.workers.rollout.vllm_rollout import vLLMAsyncRollout
@@ -114,9 +116,9 @@ def __init__(self, config: RolloutConfig) -> None:
                 model_path=local_path,
                 config=self.config,
                 tokenizer=self.tokenizer,
-                model_hf_config=self.actor_model_config,
+                model_hf_config=self.model_config.hf_config,
                 device_mesh=rollout_device_mesh,
-                trust_remote_code=trust_remote_code,
+                trust_remote_code=self.model_config.trust_remote_code,
                 **lora_kwargs,
             )
         elif self.config.name == "sglang":
@@ -131,14 +133,14 @@ def __init__(self, config: RolloutConfig) -> None:
             # check: https://github.com/sgl-project/sglang/blob/00f42707eaddfc2c0528e5b1e0094025c640b7a0/python/sglang/srt/layers/quantization/fp8_utils.py#L76
             from verl.workers.sharding_manager.fsdp_sglang import FSDPSGLangShardingManager
 
-            local_path = copy_to_local(self.config.model.path)
+            local_path = copy_to_local(self.modelh)
             log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
             rollout = SGLangRollout(
-                actor_module=local_path,
+                actor_module=self.model_config.model_path,
                 config=self.config,
                 processing_class=self.processor if self.processor is not None else self.tokenizer,
-                model_hf_config=self.actor_model_config,
-                trust_remote_code=trust_remote_code,
+                model_hf_config=self.model_config.hf_config,
+                trust_remote_code=self.model_config.trust_remote_code,
             )
             log_gpu_memory_usage(f"After building {rollout_name} rollout", logger=logger)
 

From 6b445bd6441cfc499a70e11530b3a294eeaabfe5 Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Thu, 14 Aug 2025 22:30:29 +0800
Subject: [PATCH 07/18] update

---
 verl/workers/fsdp_workers.py           | 59 ++++------------------
 verl/workers/rollout/rollout_worker.py | 69 +++++++++++++++++++++++---
 2 files changed, 73 insertions(+), 55 deletions(-)

diff --git a/verl/workers/fsdp_workers.py b/verl/workers/fsdp_workers.py
index b55180ed63f..1d4c2032be4 100644
--- a/verl/workers/fsdp_workers.py
+++ b/verl/workers/fsdp_workers.py
@@ -75,8 +75,9 @@
 from verl.utils.profiler import DistProfiler, DistProfilerExtension, ProfilerConfig, log_gpu_memory_usage, simple_timer
 from verl.utils.profiler.performance import reduce_timing, topk_reduce_ratio_min_max
 from verl.utils.py_functional import convert_to_regular_types
-from verl.workers.config import FSDPCriticConfig, FSDPEngineConfig, RolloutConfig
+from verl.workers.config import FSDPCriticConfig, FSDPEngineConfig, RolloutConfig, HFModelConfig
 from verl.workers.sharding_manager.fsdp_ulysses import FSDPUlyssesShardingManager
+from verl.workers.rollout.rollout_worker import RolloutWorker
 
 logger = logging.getLogger(__file__)
 logger.setLevel(os.getenv("VERL_LOGGING_LEVEL", "WARN"))
@@ -514,45 +515,18 @@ def _build_rollout(self, trust_remote_code=False):
             )
 
         rollout_config: RolloutConfig = omega_conf_to_dataclass(self.config.rollout)
+        model_config: HFModelConfig = omega_conf_to_dataclass(self.config.model)
 
-        if rollout_name == "hf":
-            from verl.workers.rollout import HFRollout
-            from verl.workers.sharding_manager.base import BaseShardingManager
-
-            rollout = HFRollout(module=self.actor_module_fsdp, config=rollout_config)
-            rollout_sharding_manager = BaseShardingManager()
-            # TODO: a sharding manager that do nothing?
+        log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
+        self.rollout_worker = RolloutWorker(config=rollout_config, model_config=model_config)
+        log_gpu_memory_usage(f"After building {rollout_name} rollout", logger=logger)
 
-        elif rollout_name == "vllm":
-            from verl.workers.rollout.vllm_rollout import vLLMRollout
+        if rollout_name == "vllm":
             from verl.workers.sharding_manager.fsdp_vllm import FSDPVLLMShardingManager
-
-            log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
-            local_path = copy_to_local(self.config.model.path, use_shm=self.config.model.get("use_shm", False))
-            lora_kwargs = (
-                {"lora_kwargs": {"enable_lora": True, "max_loras": 1, "max_lora_rank": self._lora_rank}}
-                if self._is_lora
-                else {}
-            )
-            # lora_kwargs = {}
-            from verl.workers.rollout.vllm_rollout import vLLMAsyncRollout
-
-            vllm_rollout_cls = vLLMRollout if rollout_config.mode == "sync" else vLLMAsyncRollout
-            rollout = vllm_rollout_cls(
-                model_path=local_path,
-                config=rollout_config,
-                tokenizer=self.tokenizer,
-                model_hf_config=self.actor_model_config,
-                device_mesh=rollout_device_mesh,
-                trust_remote_code=trust_remote_code,
-                **lora_kwargs,
-            )
-
-            log_gpu_memory_usage(f"After building {rollout_name} rollout", logger=logger)
             full_params = torch.distributed.get_world_size() == 1
             rollout_sharding_manager = FSDPVLLMShardingManager(
                 module=self.actor_module_fsdp,
-                inference_engine=rollout.inference_engine,
+                inference_engine=self.rollout_worker.rollout.inference_engine,
                 model_config=self.actor_model_config,
                 rollout_config=self.config.rollout,
                 full_params=full_params,
@@ -564,8 +538,6 @@ def _build_rollout(self, trust_remote_code=False):
             log_gpu_memory_usage("After building sharding manager", logger=logger)
 
         elif rollout_name == "sglang":
-            from verl.workers.rollout.sglang_rollout.sglang_rollout import SGLangRollout
-
             # NOTE(linjunrong): Due to recent fp8 support in SGLang. Now importing any symbol relate to
             # SGLang's model_runner would check CUDA device capability. However, due to verl's setting,
             # the main process of ray can not find any CUDA device, which would potentially lead to:
@@ -575,22 +547,11 @@ def _build_rollout(self, trust_remote_code=False):
             # check: https://github.com/sgl-project/sglang/blob/00f42707eaddfc2c0528e5b1e0094025c640b7a0/python/sglang/srt/layers/quantization/fp8_utils.py#L76
             from verl.workers.sharding_manager.fsdp_sglang import FSDPSGLangShardingManager
 
-            local_path = copy_to_local(self.config.model.path)
-            log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
-            rollout = SGLangRollout(
-                actor_module=local_path,
-                config=rollout_config,
-                processing_class=self.processor if self.processor is not None else self.tokenizer,
-                model_hf_config=self.actor_model_config,
-                trust_remote_code=trust_remote_code,
-            )
-            log_gpu_memory_usage(f"After building {rollout_name} rollout", logger=logger)
-
             if torch.distributed.get_world_size() == 1:
                 self.config.rollout.load_format = "dummy_hf"
             rollout_sharding_manager = FSDPSGLangShardingManager(
                 module=self.actor_module_fsdp,
-                inference_engine=rollout._engine,
+                inference_engine=self.rollout_worker.rollout._engine,
                 model_config=self.actor_model_config,
                 rollout_config=self.config.rollout,
                 full_params="hf" in self.config.rollout.load_format,
@@ -1760,7 +1721,7 @@ def generate_sequences(self, prompts: DataProto):
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     def execute_method(self, method: str | bytes, *args, **kwargs):
         """Called by ExternalRayDistributedExecutor collective_rpc."""
-        return self.rollout.execute_method(method, *args, **kwargs)
+        return self.rollout._execute_method(method, *args, **kwargs)
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     def get_zeromq_address(self):
diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index 87f4dd2cd1b..66f9b499cb7 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -15,6 +15,8 @@
 
 from dataclasses import dataclass, field
 
+from typing import Optional, Any
+
 import torch
 import logging
 
@@ -25,7 +27,7 @@
 from verl import DataProto
 import ray
 
-from verl.single_controller.base.decorator import register, make_nd_compute_dataproto_dispatch_fn
+from verl.single_controller.base.decorator import register, make_nd_compute_dataproto_dispatch_fn, Dispatch
 from verl.utils.profiler import log_gpu_memory_usage
 from verl.utils.fs import copy_to_local
 
@@ -51,7 +53,6 @@
 logger.setLevel(os.getenv("VERL_LOGGING_LEVEL", "WARN"))
 
 
-@ray.remote
 class RolloutWorker(Worker):
     def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
         super().__init__()
@@ -112,7 +113,7 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
             from verl.workers.rollout.vllm_rollout import vLLMAsyncRollout
 
             vllm_rollout_cls = vLLMRollout if self.config.mode == "sync" else vLLMAsyncRollout
-            rollout = vllm_rollout_cls(
+            self.rollout = vllm_rollout_cls(
                 model_path=local_path,
                 config=self.config,
                 tokenizer=self.tokenizer,
@@ -135,7 +136,7 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
 
             local_path = copy_to_local(self.modelh)
             log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
-            rollout = SGLangRollout(
+            self.rollout = SGLangRollout(
                 actor_module=self.model_config.model_path,
                 config=self.config,
                 processing_class=self.processor if self.processor is not None else self.tokenizer,
@@ -143,11 +144,67 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
                 trust_remote_code=self.model_config.trust_remote_code,
             )
             log_gpu_memory_usage(f"After building {rollout_name} rollout", logger=logger)
+        else:
+            raise ValueError(f"Unknown rollout name: {self.config.name}")
 
         
     @register(dispatch_mode=make_nd_compute_dataproto_dispatch_fn(mesh_name="infer"))
-    def generate_sequences(self, data: DataProto):
+    def generate_sequences(self, prompts: DataProto):
         """Given a batch of prompts, return a batch of responses. Internally, it can use 
         """
-        pass
+        meta_info = {
+            "eos_token_id": self.model_config.generation_config.eos_token_id
+            if self.model_config.generation_config is not None
+            else self.tokenizer.eos_token_id,
+            "pad_token_id": self.model_config.generation_config.pad_token_id
+            if self.model_config.generation_config is not None
+            else self.tokenizer.pad_token_id,
+        }
+        prompts.meta_info.update(meta_info)
+
+        output = self.rollout.generate_sequences(prompts=prompts)
+        return output
+
+    # ============================ vLLM related ============================
+
+    @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
+    def execute_method(self, method: str | bytes, *args, **kwargs):
+        """Called by ExternalRayDistributedExecutor collective_rpc."""
+        return self.rollout._execute_method(method, *args, **kwargs)
+
+    @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
+    def get_zeromq_address(self):
+        return self.rollout.get_zeromq_address()
+
+    # ============================ SGLang related ============================
+
+    @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD, blocking=False)
+    async def chat_completion(self, json_request):
+        ret = await self.rollout.chat_completion(json_request)
+        return ret
+
+    @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD, blocking=False)
+    async def generate(
+        self,
+        prompt_ids: list[int],
+        sampling_params: dict[str, Any],
+        request_id: str,
+        image_data: Optional[list[Any]] = None,
+    ) -> list[int]:
+        ret = await self.rollout.generate(prompt_ids, sampling_params, request_id, image_data=image_data)
+        return ret
+
+    @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
+    async def wake_up(self):
+        if self.config.free_cache_engine:
+            await self.rollout.wake_up()
+        # return something to block the caller
+        return True
+
+    @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
+    async def sleep(self):
+        if self.config.free_cache_engine:
+            await self.rollout.sleep()
+        # return something to block the caller
+        return True
 

From da6554de934dba0a9b7f5fd2f72a7098f961cc4c Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Thu, 14 Aug 2025 23:04:19 +0800
Subject: [PATCH 08/18] update

---
 verl/workers/fsdp_workers.py | 40 ++++++++++++++----------------------
 1 file changed, 15 insertions(+), 25 deletions(-)

diff --git a/verl/workers/fsdp_workers.py b/verl/workers/fsdp_workers.py
index 1d4c2032be4..c6e695139e5 100644
--- a/verl/workers/fsdp_workers.py
+++ b/verl/workers/fsdp_workers.py
@@ -515,10 +515,11 @@ def _build_rollout(self, trust_remote_code=False):
             )
 
         rollout_config: RolloutConfig = omega_conf_to_dataclass(self.config.rollout)
-        model_config: HFModelConfig = omega_conf_to_dataclass(self.config.model)
+        model_config: HFModelConfig = omega_conf_to_dataclass(self.config.model, dataclass_type=HFModelConfig)
 
+        # build rollout worker inside hybrid engine
         log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
-        self.rollout_worker = RolloutWorker(config=rollout_config, model_config=model_config)
+        rollout_worker = RolloutWorker(config=rollout_config, model_config=model_config)
         log_gpu_memory_usage(f"After building {rollout_name} rollout", logger=logger)
 
         if rollout_name == "vllm":
@@ -564,7 +565,7 @@ def _build_rollout(self, trust_remote_code=False):
         else:
             raise NotImplementedError(f"Rollout name: {self.config.rollout.name} is not supported")
 
-        return rollout, rollout_sharding_manager
+        return rollout_worker, rollout_sharding_manager
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def init_model(self):
@@ -626,7 +627,7 @@ def init_model(self):
             )
 
         if self._is_rollout:
-            self.rollout, self.rollout_sharding_manager = self._build_rollout(
+            self.rollout_worker, self.rollout_sharding_manager = self._build_rollout(
                 trust_remote_code=self.config.model.get("trust_remote_code", False)
             )
 
@@ -730,21 +731,12 @@ def generate_sequences(self, prompts: DataProto):
 
         assert self._is_rollout
 
-        meta_info = {
-            "eos_token_id": self.generation_config.eos_token_id
-            if self.generation_config is not None
-            else self.tokenizer.eos_token_id,
-            "pad_token_id": self.generation_config.pad_token_id
-            if self.generation_config is not None
-            else self.tokenizer.pad_token_id,
-        }
-        prompts.meta_info.update(meta_info)
         timing_generate = {}
         with self.rollout_sharding_manager:
             log_gpu_memory_usage("After entering rollout sharding manager", logger=logger)
 
             with simple_timer("generate_sequences", timing_generate):
-                output = self.rollout.generate_sequences(prompts=prompts)
+                output = self.rollout_worker.generate_sequences(prompts=prompts)
 
             log_gpu_memory_usage("After rollout generation", logger=logger)
 
@@ -1698,7 +1690,7 @@ def compute_rm_score(self, data: DataProto):
 # ================================= Async related workers =================================
 class AsyncActorRolloutRefWorker(ActorRolloutRefWorker):
     def _build_rollout(self, trust_remote_code=False):
-        rollout, rollout_sharding_manager = super()._build_rollout(trust_remote_code)
+        rollout_worker, rollout_sharding_manager = super()._build_rollout(trust_remote_code)
 
         # NOTE: rollout is not actually initialized here, it's deferred
         # to be initialized by AsyncvLLMServer.
@@ -1708,9 +1700,9 @@ def _build_rollout(self, trust_remote_code=False):
         self.vllm_tp_rank = int(os.environ["RANK"]) % self.vllm_tp_size
 
         # used for sleep/wake_up
-        rollout.sharding_manager = rollout_sharding_manager
+        rollout_worker.rollout.sharding_manager = rollout_sharding_manager
 
-        return rollout, rollout_sharding_manager
+        return rollout_worker, rollout_sharding_manager
 
     @register(dispatch_mode=Dispatch.DP_COMPUTE_PROTO)
     def generate_sequences(self, prompts: DataProto):
@@ -1721,17 +1713,17 @@ def generate_sequences(self, prompts: DataProto):
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     def execute_method(self, method: str | bytes, *args, **kwargs):
         """Called by ExternalRayDistributedExecutor collective_rpc."""
-        return self.rollout._execute_method(method, *args, **kwargs)
+        return self.rollout_worker.execute_method(method, *args, **kwargs)
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     def get_zeromq_address(self):
-        return self.rollout.get_zeromq_address()
+        return self.rollout_worker.get_zeromq_address()
 
     # ============================ SGLang related ============================
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD, blocking=False)
     async def chat_completion(self, json_request):
-        ret = await self.rollout.chat_completion(json_request)
+        ret = await self.rollout_worker.chat_completion(json_request)
         return ret
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD, blocking=False)
@@ -1742,19 +1734,17 @@ async def generate(
         request_id: str,
         image_data: Optional[list[Any]] = None,
     ) -> list[int]:
-        ret = await self.rollout.generate(prompt_ids, sampling_params, request_id, image_data=image_data)
+        ret = await self.rollout_worker.generate(prompt_ids, sampling_params, request_id, image_data=image_data)
         return ret
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     async def wake_up(self):
-        if self.config.rollout.free_cache_engine:
-            await self.rollout.wake_up()
+        await self.rollout_worker.wake_up()
         # return something to block the caller
         return True
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     async def sleep(self):
-        if self.config.rollout.free_cache_engine:
-            await self.rollout.sleep()
+        await self.rollout_worker.sleep
         # return something to block the caller
         return True

From 48393431af937bdddb13206ae747fd93181a0e44 Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 10:08:53 +0800
Subject: [PATCH 09/18] update

---
 test.sh                      | 51 ++++++++++++++++++++++++++++++++++++
 verl/workers/config/model.py | 20 +++++++-------
 2 files changed, 62 insertions(+), 9 deletions(-)
 create mode 100644 test.sh

diff --git a/test.sh b/test.sh
new file mode 100644
index 00000000000..1cb0c9cc116
--- /dev/null
+++ b/test.sh
@@ -0,0 +1,51 @@
+export NCCL_DEBUG=WARN
+
+set -x
+
+python3 -m verl.trainer.main_ppo \
+    algorithm.adv_estimator=gae \
+    data.train_files=/mnt/hdfs/zhangchi.usc1992_lf_lq/data/rlhf/gsm8k/train.parquet \
+    data.val_files=/mnt/hdfs/zhangchi.usc1992_lf_lq/data/rlhf/gsm8k/test.parquet \
+    data.train_batch_size=1024 \
+    data.max_prompt_length=1024 \
+    data.max_response_length=2048 \
+    data.filter_overlong_prompts=True \
+    data.truncation='error' \
+    actor_rollout_ref.model.path=/mnt/hdfs/zhangchi.usc1992_lf_lq/models/Qwen2.5-3B-Instruct \
+    actor_rollout_ref.actor.optim.lr=1e-6 \
+    actor_rollout_ref.model.use_remove_padding=True \
+    actor_rollout_ref.model.enable_gradient_checkpointing=True \
+    actor_rollout_ref.actor.ppo_mini_batch_size=128 \
+    actor_rollout_ref.actor.use_dynamic_bsz=True \
+    actor_rollout_ref.actor.ppo_max_token_len_per_gpu=24000 \
+    actor_rollout_ref.actor.fsdp_config.param_offload=True \
+    actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
+    actor_rollout_ref.actor.use_kl_loss=False \
+    actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
+    actor_rollout_ref.rollout.name=vllm \
+    actor_rollout_ref.rollout.gpu_memory_utilization=0.8 \
+    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu=24000 \
+    actor_rollout_ref.rollout.val_kwargs.temperature=1 \
+    actor_rollout_ref.rollout.val_kwargs.n=4 \
+    actor_rollout_ref.rollout.val_kwargs.do_sample=True \
+    critic.optim.lr=1e-5 \
+    critic.model.use_remove_padding=True \
+    critic.model.path=/mnt/hdfs/zhangchi.usc1992_lf_lq/models/Qwen2.5-3B-Instruct \
+    critic.model.enable_gradient_checkpointing=True \
+    critic.ppo_max_token_len_per_gpu=98304 \
+    critic.model.fsdp_config.param_offload=True \
+    critic.model.fsdp_config.optimizer_offload=True \
+    algorithm.use_kl_in_reward=False \
+    trainer.critic_warmup=10 \
+    trainer.logger=['console','wandb'] \
+    trainer.project_name='verl_example_gsm8k' \
+    trainer.experiment_name='qwen2_5-3b-instruct-gsm8k' \
+    trainer.n_gpus_per_node=8 \
+    trainer.val_before_train=True \
+    trainer.nnodes=1 \
+    trainer.save_freq=10 \
+    trainer.test_freq=5 \
+    trainer.total_epochs=10 \
+    trainer.default_local_dir=/mnt/hdfs/zhangchi.usc1992_lf_lq/verl/nightly_ci/qwen2_5-3b-instruct-gsm8k \
+    trainer.log_val_generations=10 \
+    trainer.resume_mode='disable'
\ No newline at end of file
diff --git a/verl/workers/config/model.py b/verl/workers/config/model.py
index 8c62f3cec34..ec943a65999 100644
--- a/verl/workers/config/model.py
+++ b/verl/workers/config/model.py
@@ -15,7 +15,7 @@
 from omegaconf import MISSING
 from verl.base_config import BaseConfig
 from dataclasses import dataclass, field
-from typing import Optional
+from typing import Optional, Any
 
 from transformers import AutoConfig, AutoTokenizer, PretrainedConfig, PreTrainedTokenizer, GenerationConfig
 
@@ -27,13 +27,15 @@
 @dataclass
 class HFModelConfig(BaseConfig):
     # note that we separate model_path, model_config_path and tokenizer_path in case they are different
-    model_path: str = MISSING
+    _mutable_fields = {'hf_config_path', 'tokenizer_path', 'hf_config', 'generation_config', 'tokenizer'}
+
+    path: str = MISSING
     hf_config_path: Optional[str] = None
     tokenizer_path: Optional[str] = None
 
-    hf_config: PretrainedConfig = None
-    generation_config: GenerationConfig = None
-    tokenizer: PreTrainedTokenizer = None
+    hf_config: Any = None
+    generation_config: Any = None
+    tokenizer: Any = None
 
     # whether to use shared memory
     use_shm: bool = False
@@ -44,7 +46,7 @@ class HFModelConfig(BaseConfig):
 
     external_lib: Optional[str] = None
 
-    override_model_config: dict = field(default_factory=dict)
+    override_config: dict = field(default_factory=dict)
 
     enable_gradient_checkpointing: bool = True
     enable_activation_offload: bool = False
@@ -64,9 +66,9 @@ class HFModelConfig(BaseConfig):
 
     def __post_init__(self):
         if self.hf_config_path is None:
-            self.hf_config_path = self.model_path
+            self.hf_config_path = self.path
         if self.tokenizer_path is None:
-            self.tokenizer_path = self.model_path
+            self.tokenizer_path = self.path
 
         # constuct tokenizer
         self.tokenizer: PreTrainedTokenizer = AutoTokenizer.from_pretrained(self.tokenizer_path, trust_remote_code=self.trust_remote_code, 
@@ -81,7 +83,7 @@ def __post_init__(self):
             "eos_token_id": self.tokenizer.eos_token_id,
             "pad_token_id": self.tokenizer.pad_token_id,
         }
-        override_config_kwargs.update(self.override_model_config)
+        override_config_kwargs.update(self.override_config)
         update_model_config(self.hf_config, override_config_kwargs=override_config_kwargs)
 
         # per model patch

From 86ec5f79662b330bd120f2805a93ac5095fa8ee6 Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 14:35:33 +0800
Subject: [PATCH 10/18] update

---
 tests/single_controller/test_nested_worker.py | 71 +++++++++++++++++++
 1 file changed, 71 insertions(+)
 create mode 100644 tests/single_controller/test_nested_worker.py

diff --git a/tests/single_controller/test_nested_worker.py b/tests/single_controller/test_nested_worker.py
new file mode 100644
index 00000000000..1f21a37257e
--- /dev/null
+++ b/tests/single_controller/test_nested_worker.py
@@ -0,0 +1,71 @@
+# Copyright 2025 Bytedance Ltd. and/or its affiliates
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import time
+
+import ray
+
+from verl.single_controller.base.worker import Worker
+from verl.single_controller.ray.base import RayClassWithInitArgs, RayResourcePool, RayWorkerGroup, merge_resource_pool
+from verl.single_controller.base.decorator import Dispatch, register
+
+
+class TestActor(Worker):
+    # TODO: pass *args and **kwargs is bug prone and not very convincing
+    def __init__(self, x) -> None:
+        super().__init__()
+        self.a = x
+    
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    def get(self):
+        return self.a + self.rank
+
+
+
+class TestHighLevelActor(Worker):
+    def __init__(self, x=None) -> None:
+        super().__init__()
+        self.test_actor = TestActor(x=x)
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    def get(self):
+        return self.test_actor.get()
+
+
+def test_nested_worker():
+    ray.init(num_cpus=100)
+
+    # create 4 workers, each hold a GPU
+    resource_pool = RayResourcePool([4], use_gpu=True)
+    class_with_args = RayClassWithInitArgs(cls=ray.remote(TestActor), x=2)
+
+    worker_group = RayWorkerGroup(
+        resource_pool=resource_pool, ray_cls_with_init=class_with_args, name_prefix="worker_group_basic"
+    )
+
+    output = worker_group.get()
+
+    assert output == [2, 3, 4, 5]
+
+    class_with_args = RayClassWithInitArgs(cls=ray.remote(TestHighLevelActor), x=2)
+    high_level_worker_group = RayWorkerGroup(
+        resource_pool=resource_pool, ray_cls_with_init=class_with_args, name_prefix="worker_group_basic_2"
+    )
+
+    output_1 = high_level_worker_group.get()
+
+    assert output_1 == [2, 3, 4, 5]
+
+    ray.shutdown()
+

From 0419b680ac09297dfbbb757c67c53e7e6a5449de Mon Sep 17 00:00:00 2001
From: "zhangchi.usc1992" <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 15:40:52 +0800
Subject: [PATCH 11/18] update

---
 verl/workers/config/model.py           | 18 ++++++++++++++----
 verl/workers/fsdp_workers.py           |  4 ++--
 verl/workers/rollout/rollout_worker.py | 18 ++++++------------
 3 files changed, 22 insertions(+), 18 deletions(-)

diff --git a/verl/workers/config/model.py b/verl/workers/config/model.py
index ec943a65999..d0d804c04e6 100644
--- a/verl/workers/config/model.py
+++ b/verl/workers/config/model.py
@@ -20,6 +20,8 @@
 from transformers import AutoConfig, AutoTokenizer, PretrainedConfig, PreTrainedTokenizer, GenerationConfig
 
 from verl.utils.model import get_generation_config, update_model_config
+from verl.utils import hf_processor, hf_tokenizer
+from verl.utils.fs import copy_to_local
 
 __all__ = ["HFModelConfig"]
 
@@ -27,15 +29,17 @@
 @dataclass
 class HFModelConfig(BaseConfig):
     # note that we separate model_path, model_config_path and tokenizer_path in case they are different
-    _mutable_fields = {'hf_config_path', 'tokenizer_path', 'hf_config', 'generation_config', 'tokenizer'}
+    _mutable_fields = {'hf_config_path', 'tokenizer_path', 'hf_config', 'generation_config', 'tokenizer', 'processor', 'local_path'}
 
     path: str = MISSING
+    local_path: Optional[str] = None
     hf_config_path: Optional[str] = None
     tokenizer_path: Optional[str] = None
 
     hf_config: Any = None
     generation_config: Any = None
     tokenizer: Any = None
+    processor: Any = None
 
     # whether to use shared memory
     use_shm: bool = False
@@ -71,12 +75,16 @@ def __post_init__(self):
             self.tokenizer_path = self.path
 
         # constuct tokenizer
-        self.tokenizer: PreTrainedTokenizer = AutoTokenizer.from_pretrained(self.tokenizer_path, trust_remote_code=self.trust_remote_code, 
-                                                                            attn_implementation="flash_attention_2")
+        self.local_path = copy_to_local(self.path, use_shm=self.use_shm)
+        self.tokenizer = hf_tokenizer(self.local_path, trust_remote_code=self.trust_remote_code)
+        self.processor = hf_processor(self.local_path, trust_remote_code=self.trust_remote_code)
+
         self.generation_config = get_generation_config(self.hf_config_path, trust_remote_code=self.trust_remote_code)
 
         # constuct hf_config
-        self.hf_config = AutoConfig.from_pretrained(self.hf_config_path)
+        attn_implementation = self.override_config.get('attn_implementation', 'flash_attention_2')
+        self.hf_config = AutoConfig.from_pretrained(self.hf_config_path, trust_remote_code=self.trust_remote_code, 
+                                                    attn_implementation=attn_implementation)
 
         override_config_kwargs = {
             "bos_token_id": self.tokenizer.bos_token_id,
@@ -90,3 +98,5 @@ def __post_init__(self):
         if getattr(self.hf_config, "model_type", None) == "kimi_vl":
             self.hf_config.text_config.topk_method = "greedy"
 
+    def get_processor(self):
+        return self.processor if self.processor is not None else self.tokenizer
\ No newline at end of file
diff --git a/verl/workers/fsdp_workers.py b/verl/workers/fsdp_workers.py
index c6e695139e5..6de179dcb8d 100644
--- a/verl/workers/fsdp_workers.py
+++ b/verl/workers/fsdp_workers.py
@@ -527,7 +527,7 @@ def _build_rollout(self, trust_remote_code=False):
             full_params = torch.distributed.get_world_size() == 1
             rollout_sharding_manager = FSDPVLLMShardingManager(
                 module=self.actor_module_fsdp,
-                inference_engine=self.rollout_worker.rollout.inference_engine,
+                inference_engine=rollout_worker.rollout.inference_engine,
                 model_config=self.actor_model_config,
                 rollout_config=self.config.rollout,
                 full_params=full_params,
@@ -552,7 +552,7 @@ def _build_rollout(self, trust_remote_code=False):
                 self.config.rollout.load_format = "dummy_hf"
             rollout_sharding_manager = FSDPSGLangShardingManager(
                 module=self.actor_module_fsdp,
-                inference_engine=self.rollout_worker.rollout._engine,
+                inference_engine=rollout_worker.rollout._engine,
                 model_config=self.actor_model_config,
                 rollout_config=self.config.rollout,
                 full_params="hf" in self.config.rollout.load_format,
diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index 66f9b499cb7..27fecb87594 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -95,16 +95,11 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
                 "rollout", dp_rank=rollout_device_mesh["dp"].get_local_rank(), is_collect=is_collect
             )
 
-        self.tokenizer = hf_tokenizer(local_path, trust_remote_code=self.model_config.trust_remote_code)
-        self.processor = hf_processor(local_path, trust_remote_code=self.model_config.trust_remote_code)
-        self.hf_config = AutoConfig.from_pretrained(local_path)
-
         # build rollout engine here
         if self.config.name == "vllm":
             from verl.workers.rollout.vllm_rollout import vLLMRollout
 
             log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
-            local_path = copy_to_local(self.model_config.model_path, use_shm=self.model_config.use_shm)
             lora_kwargs = (
                 {"lora_kwargs": {"enable_lora": True, "max_loras": 1, "max_lora_rank": self.model_config.lora_rank}}
                 if self.model_config.lora_rank > 0
@@ -114,9 +109,9 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
 
             vllm_rollout_cls = vLLMRollout if self.config.mode == "sync" else vLLMAsyncRollout
             self.rollout = vllm_rollout_cls(
-                model_path=local_path,
+                model_path=self.model_config.local_path,
                 config=self.config,
-                tokenizer=self.tokenizer,
+                tokenizer=self.model_config.tokenizer,
                 model_hf_config=self.model_config.hf_config,
                 device_mesh=rollout_device_mesh,
                 trust_remote_code=self.model_config.trust_remote_code,
@@ -134,12 +129,11 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
             # check: https://github.com/sgl-project/sglang/blob/00f42707eaddfc2c0528e5b1e0094025c640b7a0/python/sglang/srt/layers/quantization/fp8_utils.py#L76
             from verl.workers.sharding_manager.fsdp_sglang import FSDPSGLangShardingManager
 
-            local_path = copy_to_local(self.modelh)
             log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
             self.rollout = SGLangRollout(
-                actor_module=self.model_config.model_path,
+                actor_module=self.model_config.local_path,
                 config=self.config,
-                processing_class=self.processor if self.processor is not None else self.tokenizer,
+                processing_class=self.model_config.processor,
                 model_hf_config=self.model_config.hf_config,
                 trust_remote_code=self.model_config.trust_remote_code,
             )
@@ -155,10 +149,10 @@ def generate_sequences(self, prompts: DataProto):
         meta_info = {
             "eos_token_id": self.model_config.generation_config.eos_token_id
             if self.model_config.generation_config is not None
-            else self.tokenizer.eos_token_id,
+            else self.model_config.processor.eos_token_id,
             "pad_token_id": self.model_config.generation_config.pad_token_id
             if self.model_config.generation_config is not None
-            else self.tokenizer.pad_token_id,
+            else self.model_config.processor.pad_token_id,
         }
         prompts.meta_info.update(meta_info)
 

From 3145e8ac58472b698ee564f0fda9b4a2d6f06ae5 Mon Sep 17 00:00:00 2001
From: Chi Zhang <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 15:47:06 +0800
Subject: [PATCH 12/18] fix precommit

---
 tests/single_controller/test_nested_worker.py |  9 ++---
 verl/workers/config/model.py                  | 31 +++++++++-----
 verl/workers/config/rollout.py                |  3 +-
 verl/workers/fsdp_workers.py                  |  5 ++-
 verl/workers/rollout/rollout_worker.py        | 40 ++++---------------
 5 files changed, 36 insertions(+), 52 deletions(-)

diff --git a/tests/single_controller/test_nested_worker.py b/tests/single_controller/test_nested_worker.py
index 1f21a37257e..e35d8f44c12 100644
--- a/tests/single_controller/test_nested_worker.py
+++ b/tests/single_controller/test_nested_worker.py
@@ -12,13 +12,12 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import time
 
 import ray
 
-from verl.single_controller.base.worker import Worker
-from verl.single_controller.ray.base import RayClassWithInitArgs, RayResourcePool, RayWorkerGroup, merge_resource_pool
 from verl.single_controller.base.decorator import Dispatch, register
+from verl.single_controller.base.worker import Worker
+from verl.single_controller.ray.base import RayClassWithInitArgs, RayResourcePool, RayWorkerGroup
 
 
 class TestActor(Worker):
@@ -26,13 +25,12 @@ class TestActor(Worker):
     def __init__(self, x) -> None:
         super().__init__()
         self.a = x
-    
+
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def get(self):
         return self.a + self.rank
 
 
-
 class TestHighLevelActor(Worker):
     def __init__(self, x=None) -> None:
         super().__init__()
@@ -68,4 +66,3 @@ def test_nested_worker():
     assert output_1 == [2, 3, 4, 5]
 
     ray.shutdown()
-
diff --git a/verl/workers/config/model.py b/verl/workers/config/model.py
index d0d804c04e6..e6bd4120b07 100644
--- a/verl/workers/config/model.py
+++ b/verl/workers/config/model.py
@@ -12,16 +12,16 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from omegaconf import MISSING
-from verl.base_config import BaseConfig
 from dataclasses import dataclass, field
-from typing import Optional, Any
+from typing import Any, Optional
 
-from transformers import AutoConfig, AutoTokenizer, PretrainedConfig, PreTrainedTokenizer, GenerationConfig
+from omegaconf import MISSING
+from transformers import AutoConfig
 
-from verl.utils.model import get_generation_config, update_model_config
+from verl.base_config import BaseConfig
 from verl.utils import hf_processor, hf_tokenizer
 from verl.utils.fs import copy_to_local
+from verl.utils.model import get_generation_config, update_model_config
 
 __all__ = ["HFModelConfig"]
 
@@ -29,7 +29,15 @@
 @dataclass
 class HFModelConfig(BaseConfig):
     # note that we separate model_path, model_config_path and tokenizer_path in case they are different
-    _mutable_fields = {'hf_config_path', 'tokenizer_path', 'hf_config', 'generation_config', 'tokenizer', 'processor', 'local_path'}
+    _mutable_fields = {
+        "hf_config_path",
+        "tokenizer_path",
+        "hf_config",
+        "generation_config",
+        "tokenizer",
+        "processor",
+        "local_path",
+    }
 
     path: str = MISSING
     local_path: Optional[str] = None
@@ -64,7 +72,7 @@ class HFModelConfig(BaseConfig):
 
     exclude_modules: Optional[str] = None
     use_liger: bool = False
-    
+
     use_fused_kernels: bool = False
     fused_kernel_options: dict = field(default_factory=dict)
 
@@ -82,9 +90,10 @@ def __post_init__(self):
         self.generation_config = get_generation_config(self.hf_config_path, trust_remote_code=self.trust_remote_code)
 
         # constuct hf_config
-        attn_implementation = self.override_config.get('attn_implementation', 'flash_attention_2')
-        self.hf_config = AutoConfig.from_pretrained(self.hf_config_path, trust_remote_code=self.trust_remote_code, 
-                                                    attn_implementation=attn_implementation)
+        attn_implementation = self.override_config.get("attn_implementation", "flash_attention_2")
+        self.hf_config = AutoConfig.from_pretrained(
+            self.hf_config_path, trust_remote_code=self.trust_remote_code, attn_implementation=attn_implementation
+        )
 
         override_config_kwargs = {
             "bos_token_id": self.tokenizer.bos_token_id,
@@ -99,4 +108,4 @@ def __post_init__(self):
             self.hf_config.text_config.topk_method = "greedy"
 
     def get_processor(self):
-        return self.processor if self.processor is not None else self.tokenizer
\ No newline at end of file
+        return self.processor if self.processor is not None else self.tokenizer
diff --git a/verl/workers/config/rollout.py b/verl/workers/config/rollout.py
index 954e6eda74d..2b17408035e 100644
--- a/verl/workers/config/rollout.py
+++ b/verl/workers/config/rollout.py
@@ -12,10 +12,11 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from omegaconf import MISSING
 from dataclasses import dataclass, field
 from typing import Optional
 
+from omegaconf import MISSING
+
 from verl.base_config import BaseConfig
 from verl.utils.profiler import ProfilerConfig
 
diff --git a/verl/workers/fsdp_workers.py b/verl/workers/fsdp_workers.py
index 6de179dcb8d..495a63c8f1f 100644
--- a/verl/workers/fsdp_workers.py
+++ b/verl/workers/fsdp_workers.py
@@ -75,9 +75,9 @@
 from verl.utils.profiler import DistProfiler, DistProfilerExtension, ProfilerConfig, log_gpu_memory_usage, simple_timer
 from verl.utils.profiler.performance import reduce_timing, topk_reduce_ratio_min_max
 from verl.utils.py_functional import convert_to_regular_types
-from verl.workers.config import FSDPCriticConfig, FSDPEngineConfig, RolloutConfig, HFModelConfig
-from verl.workers.sharding_manager.fsdp_ulysses import FSDPUlyssesShardingManager
+from verl.workers.config import FSDPCriticConfig, FSDPEngineConfig, HFModelConfig, RolloutConfig
 from verl.workers.rollout.rollout_worker import RolloutWorker
+from verl.workers.sharding_manager.fsdp_ulysses import FSDPUlyssesShardingManager
 
 logger = logging.getLogger(__file__)
 logger.setLevel(os.getenv("VERL_LOGGING_LEVEL", "WARN"))
@@ -524,6 +524,7 @@ def _build_rollout(self, trust_remote_code=False):
 
         if rollout_name == "vllm":
             from verl.workers.sharding_manager.fsdp_vllm import FSDPVLLMShardingManager
+
             full_params = torch.distributed.get_world_size() == 1
             rollout_sharding_manager = FSDPVLLMShardingManager(
                 module=self.actor_module_fsdp,
diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index 27fecb87594..07095ff7c08 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -13,41 +13,21 @@
 # limitations under the License.
 
 
-from dataclasses import dataclass, field
-
-from typing import Optional, Any
-
-import torch
+import datetime
 import logging
-
 import os
-import datetime
+from typing import Any, Optional
 
-from verl.single_controller.base import Worker
 from verl import DataProto
-import ray
-
-from verl.single_controller.base.decorator import register, make_nd_compute_dataproto_dispatch_fn, Dispatch
-from verl.utils.profiler import log_gpu_memory_usage
-from verl.utils.fs import copy_to_local
-
-from verl.base_config import BaseConfig
-from verl.workers.config.rollout import RolloutConfig
-from verl.workers.config.model import HFModelConfig
-
-from verl.utils import hf_processor, hf_tokenizer
-
+from verl.single_controller.base import Worker
+from verl.single_controller.base.decorator import Dispatch, make_nd_compute_dataproto_dispatch_fn, register
 from verl.utils.device import (
-    get_device_id,
     get_device_name,
     get_nccl_backend,
-    get_torch_device,
-    is_cuda_available,
-    is_npu_available,
 )
-
-from transformers import AutoConfig
-
+from verl.utils.profiler import log_gpu_memory_usage
+from verl.workers.config.model import HFModelConfig
+from verl.workers.config.rollout import RolloutConfig
 
 logger = logging.getLogger(__file__)
 logger.setLevel(os.getenv("VERL_LOGGING_LEVEL", "WARN"))
@@ -127,7 +107,6 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
             # For this reason, sharding_manager.__init__ should not import FSDPSGLangShardingManager and
             # we import it here use the abs path.
             # check: https://github.com/sgl-project/sglang/blob/00f42707eaddfc2c0528e5b1e0094025c640b7a0/python/sglang/srt/layers/quantization/fp8_utils.py#L76
-            from verl.workers.sharding_manager.fsdp_sglang import FSDPSGLangShardingManager
 
             log_gpu_memory_usage(f"Before building {rollout_name} rollout", logger=logger)
             self.rollout = SGLangRollout(
@@ -141,11 +120,9 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
         else:
             raise ValueError(f"Unknown rollout name: {self.config.name}")
 
-        
     @register(dispatch_mode=make_nd_compute_dataproto_dispatch_fn(mesh_name="infer"))
     def generate_sequences(self, prompts: DataProto):
-        """Given a batch of prompts, return a batch of responses. Internally, it can use 
-        """
+        """Given a batch of prompts, return a batch of responses. Internally, it can use"""
         meta_info = {
             "eos_token_id": self.model_config.generation_config.eos_token_id
             if self.model_config.generation_config is not None
@@ -201,4 +178,3 @@ async def sleep(self):
             await self.rollout.sleep()
         # return something to block the caller
         return True
-

From b0ed04359028419d56113eef2aff6fa286db5d30 Mon Sep 17 00:00:00 2001
From: Chi Zhang <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 15:48:04 +0800
Subject: [PATCH 13/18] remove test

---
 test.sh | 51 ---------------------------------------------------
 1 file changed, 51 deletions(-)
 delete mode 100644 test.sh

diff --git a/test.sh b/test.sh
deleted file mode 100644
index 1cb0c9cc116..00000000000
--- a/test.sh
+++ /dev/null
@@ -1,51 +0,0 @@
-export NCCL_DEBUG=WARN
-
-set -x
-
-python3 -m verl.trainer.main_ppo \
-    algorithm.adv_estimator=gae \
-    data.train_files=/mnt/hdfs/zhangchi.usc1992_lf_lq/data/rlhf/gsm8k/train.parquet \
-    data.val_files=/mnt/hdfs/zhangchi.usc1992_lf_lq/data/rlhf/gsm8k/test.parquet \
-    data.train_batch_size=1024 \
-    data.max_prompt_length=1024 \
-    data.max_response_length=2048 \
-    data.filter_overlong_prompts=True \
-    data.truncation='error' \
-    actor_rollout_ref.model.path=/mnt/hdfs/zhangchi.usc1992_lf_lq/models/Qwen2.5-3B-Instruct \
-    actor_rollout_ref.actor.optim.lr=1e-6 \
-    actor_rollout_ref.model.use_remove_padding=True \
-    actor_rollout_ref.model.enable_gradient_checkpointing=True \
-    actor_rollout_ref.actor.ppo_mini_batch_size=128 \
-    actor_rollout_ref.actor.use_dynamic_bsz=True \
-    actor_rollout_ref.actor.ppo_max_token_len_per_gpu=24000 \
-    actor_rollout_ref.actor.fsdp_config.param_offload=True \
-    actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
-    actor_rollout_ref.actor.use_kl_loss=False \
-    actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
-    actor_rollout_ref.rollout.name=vllm \
-    actor_rollout_ref.rollout.gpu_memory_utilization=0.8 \
-    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu=24000 \
-    actor_rollout_ref.rollout.val_kwargs.temperature=1 \
-    actor_rollout_ref.rollout.val_kwargs.n=4 \
-    actor_rollout_ref.rollout.val_kwargs.do_sample=True \
-    critic.optim.lr=1e-5 \
-    critic.model.use_remove_padding=True \
-    critic.model.path=/mnt/hdfs/zhangchi.usc1992_lf_lq/models/Qwen2.5-3B-Instruct \
-    critic.model.enable_gradient_checkpointing=True \
-    critic.ppo_max_token_len_per_gpu=98304 \
-    critic.model.fsdp_config.param_offload=True \
-    critic.model.fsdp_config.optimizer_offload=True \
-    algorithm.use_kl_in_reward=False \
-    trainer.critic_warmup=10 \
-    trainer.logger=['console','wandb'] \
-    trainer.project_name='verl_example_gsm8k' \
-    trainer.experiment_name='qwen2_5-3b-instruct-gsm8k' \
-    trainer.n_gpus_per_node=8 \
-    trainer.val_before_train=True \
-    trainer.nnodes=1 \
-    trainer.save_freq=10 \
-    trainer.test_freq=5 \
-    trainer.total_epochs=10 \
-    trainer.default_local_dir=/mnt/hdfs/zhangchi.usc1992_lf_lq/verl/nightly_ci/qwen2_5-3b-instruct-gsm8k \
-    trainer.log_val_generations=10 \
-    trainer.resume_mode='disable'
\ No newline at end of file

From e19025bd762f9d47d1ff073e2a6f23ab382b4cba Mon Sep 17 00:00:00 2001
From: Chi Zhang <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 15:51:14 +0800
Subject: [PATCH 14/18] Update verl/workers/fsdp_workers.py

Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 verl/workers/fsdp_workers.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/verl/workers/fsdp_workers.py b/verl/workers/fsdp_workers.py
index 495a63c8f1f..9e55475eb8b 100644
--- a/verl/workers/fsdp_workers.py
+++ b/verl/workers/fsdp_workers.py
@@ -1746,6 +1746,6 @@ async def wake_up(self):
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     async def sleep(self):
-        await self.rollout_worker.sleep
+        await self.rollout_worker.sleep()
         # return something to block the caller
         return True

From 9f785766063a979b7f0be36f27e82bfbdcc44491 Mon Sep 17 00:00:00 2001
From: Chi Zhang <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 16:04:06 +0800
Subject: [PATCH 15/18] fix doc

---
 docs/index.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/index.rst b/docs/index.rst
index 7477827242a..46e272b670c 100644
--- a/docs/index.rst
+++ b/docs/index.rst
@@ -127,7 +127,7 @@ verl is fast with:
    amd_tutorial/amd_build_dockerfile_page.rst
    amd_tutorial/amd_vllm_page.rst
    ascend_tutorial/ascend_quick_start.rst
-   ascend_tutorial/ascend_profiling.rst
+   ascend_tutorial/ascend_profiling_zh.rst
    ascend_tutorial/ascend_profiling_en.rst
 
 .. toctree::

From 517c0ed2cfe2d9511cf1497394cf36ef468f9391 Mon Sep 17 00:00:00 2001
From: Chi Zhang <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 16:34:28 +0800
Subject: [PATCH 16/18] fix sglang

---
 verl/workers/rollout/sglang_rollout/sglang_rollout.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/verl/workers/rollout/sglang_rollout/sglang_rollout.py b/verl/workers/rollout/sglang_rollout/sglang_rollout.py
index 188ceb3cf99..a684021c439 100644
--- a/verl/workers/rollout/sglang_rollout/sglang_rollout.py
+++ b/verl/workers/rollout/sglang_rollout/sglang_rollout.py
@@ -1096,7 +1096,7 @@ def _req_level_generate_sequences(self, prompts: DataProto, **kwargs) -> DataPro
             else:
                 # add progress monitoring and abort function
                 total_requests = len(req_list)
-                target_completion = int(total_requests * (1 - self.config.over_sample_rate))
+                target_completion = int(total_requests * (1 - self.config.get("over_sample_rate", 0.0)))
                 # abort when target_completion of requests are completed
 
                 completed_count = 0

From 3c7df13aba30ec5cf251e8a92ebedb83a9577eea Mon Sep 17 00:00:00 2001
From: Chi Zhang <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 16:48:29 +0800
Subject: [PATCH 17/18] fix sglang

---
 verl/workers/rollout/rollout_worker.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index 07095ff7c08..bd366b3c6f0 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -112,7 +112,7 @@ def __init__(self, config: RolloutConfig, model_config: HFModelConfig) -> None:
             self.rollout = SGLangRollout(
                 actor_module=self.model_config.local_path,
                 config=self.config,
-                processing_class=self.model_config.processor,
+                processing_class=self.model_config.get_processor(),
                 model_hf_config=self.model_config.hf_config,
                 trust_remote_code=self.model_config.trust_remote_code,
             )

From e1e5513eb89ea2118cf4b94f84b09e9f23066150 Mon Sep 17 00:00:00 2001
From: Chi Zhang <zhangchi.usc1992@bytedance.com>
Date: Fri, 15 Aug 2025 20:31:28 +0800
Subject: [PATCH 18/18] update

---
 .github/workflows/e2e_ppo_trainer.yml      | 18 ++++----
 recipe/one_step_off_policy/fsdp_workers.py | 51 ++++++++++++++++++++--
 verl/workers/fsdp_workers.py               | 16 +++----
 verl/workers/rollout/rollout_worker.py     |  4 +-
 4 files changed, 66 insertions(+), 23 deletions(-)

diff --git a/.github/workflows/e2e_ppo_trainer.yml b/.github/workflows/e2e_ppo_trainer.yml
index 8c71e6cf745..f27da026aaf 100644
--- a/.github/workflows/e2e_ppo_trainer.yml
+++ b/.github/workflows/e2e_ppo_trainer.yml
@@ -101,15 +101,15 @@ jobs:
           ray stop --force
           python3 examples/data_preprocess/gsm8k.py
       # HF sanity
-      - name: Running GSM8K E2E training tests on 1 L20 GPU with hf for sanity
-        run: |
-          ray stop --force
-          bash tests/special_e2e/ppo_trainer/run_single_gpu.sh
-      # HF sanity
-      - name: Running GSM8K E2E training tests on 1 L20 GPU with engine interface for sanity.
-        run: |
-          ray stop --force
-          bash tests/special_e2e/ppo_trainer/run_single_gpu_with_engine.sh
+#      - name: Running GSM8K E2E training tests on 1 L20 GPU with hf for sanity
+#        run: |
+#          ray stop --force
+#          bash tests/special_e2e/ppo_trainer/run_single_gpu.sh
+#      # HF sanity
+#      - name: Running GSM8K E2E training tests on 1 L20 GPU with engine interface for sanity.
+#        run: |
+#          ray stop --force
+#          bash tests/special_e2e/ppo_trainer/run_single_gpu_with_engine.sh
       # Function RM
       - name: Running GSM8K E2E training tests on 8 L20 GPUs with rmpad using function rm with validation and saving (FSDP_SIZE=8)
         run: |
diff --git a/recipe/one_step_off_policy/fsdp_workers.py b/recipe/one_step_off_policy/fsdp_workers.py
index ae45667e9d3..131d08e0ac9 100644
--- a/recipe/one_step_off_policy/fsdp_workers.py
+++ b/recipe/one_step_off_policy/fsdp_workers.py
@@ -26,8 +26,8 @@
 from verl.single_controller.base import Worker
 from verl.single_controller.base.decorator import Dispatch, make_nd_compute_dataproto_dispatch_fn, register
 from verl.utils import hf_processor, hf_tokenizer, omega_conf_to_dataclass
-from verl.utils.debug import DistProfiler, DistProfilerExtension, log_gpu_memory_usage
 from verl.utils.device import (
+    get_device_id,
     get_device_name,
     get_nccl_backend,
     get_torch_device,
@@ -38,7 +38,8 @@
 )
 from verl.utils.import_utils import import_external_libs
 from verl.utils.model import get_generation_config, update_model_config
-from verl.utils.profiler import ProfilerConfig
+from verl.utils.profiler import DistProfiler, DistProfilerExtension, ProfilerConfig, log_gpu_memory_usage, simple_timer
+from verl.utils.profiler.performance import reduce_timing, topk_reduce_ratio_min_max
 from verl.workers.fsdp_workers import ActorRolloutRefWorker as ARRWorker
 from verl.workers.fsdp_workers import CriticWorker
 
@@ -231,8 +232,50 @@ def init_model(self):
         self.rollout_sharding_manager = rollout_sharding_manager
 
     @register(dispatch_mode=make_nd_compute_dataproto_dispatch_fn(mesh_name="rollout"), blocking=False)
-    def async_generate_sequences(self, *args, **kwargs):
-        return super().generate_sequences(*args, **kwargs)
+    def async_generate_sequences(self, prompts):
+        # Support all hardwares
+        prompts = prompts.to(get_device_id())
+
+        assert self._is_rollout
+
+        meta_info = {
+            "eos_token_id": self.generation_config.eos_token_id
+            if self.generation_config is not None
+            else self.tokenizer.eos_token_id,
+            "pad_token_id": self.generation_config.pad_token_id
+            if self.generation_config is not None
+            else self.tokenizer.pad_token_id,
+        }
+        prompts.meta_info.update(meta_info)
+        timing_generate = {}
+        with self.rollout_sharding_manager:
+            log_gpu_memory_usage("After entering rollout sharding manager", logger=logger)
+
+            with simple_timer("generate_sequences", timing_generate):
+                output = self.rollout.generate_sequences(prompts=prompts)
+
+            log_gpu_memory_usage("After rollout generation", logger=logger)
+
+        timing_generate.update(self.rollout_sharding_manager.timing)
+        # We calculate the average timing across all ranks
+        # to make sure meta_info["timing"] is the same
+        timing_generate_topk_ratio, timing_generate_min, timing_generate_max = topk_reduce_ratio_min_max(
+            timing_generate["generate_sequences"]
+        )
+        timing_generate = reduce_timing(timing_generate)
+        timing_generate.update(
+            {
+                "generation_timing/max": timing_generate_max,
+                "generation_timing/min": timing_generate_min,
+                "generation_timing/topk_ratio": timing_generate_topk_ratio,
+            }
+        )
+        output.meta_info["timing"] = timing_generate
+        output = output.to("cpu")
+
+        # clear kv cache
+        get_torch_device().empty_cache()
+        return output
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def set_actor_weights_info(self, weights_info):
diff --git a/verl/workers/fsdp_workers.py b/verl/workers/fsdp_workers.py
index 9e55475eb8b..8d9dbc27d4d 100644
--- a/verl/workers/fsdp_workers.py
+++ b/verl/workers/fsdp_workers.py
@@ -628,7 +628,7 @@ def init_model(self):
             )
 
         if self._is_rollout:
-            self.rollout_worker, self.rollout_sharding_manager = self._build_rollout(
+            self.rollout, self.rollout_sharding_manager = self._build_rollout(
                 trust_remote_code=self.config.model.get("trust_remote_code", False)
             )
 
@@ -737,7 +737,7 @@ def generate_sequences(self, prompts: DataProto):
             log_gpu_memory_usage("After entering rollout sharding manager", logger=logger)
 
             with simple_timer("generate_sequences", timing_generate):
-                output = self.rollout_worker.generate_sequences(prompts=prompts)
+                output = self.rollout.generate_sequences(prompts=prompts)
 
             log_gpu_memory_usage("After rollout generation", logger=logger)
 
@@ -1714,17 +1714,17 @@ def generate_sequences(self, prompts: DataProto):
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     def execute_method(self, method: str | bytes, *args, **kwargs):
         """Called by ExternalRayDistributedExecutor collective_rpc."""
-        return self.rollout_worker.execute_method(method, *args, **kwargs)
+        return self.rollout.execute_method(method, *args, **kwargs)
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     def get_zeromq_address(self):
-        return self.rollout_worker.get_zeromq_address()
+        return self.rollout.get_zeromq_address()
 
     # ============================ SGLang related ============================
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD, blocking=False)
     async def chat_completion(self, json_request):
-        ret = await self.rollout_worker.chat_completion(json_request)
+        ret = await self.rollout.chat_completion(json_request)
         return ret
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD, blocking=False)
@@ -1735,17 +1735,17 @@ async def generate(
         request_id: str,
         image_data: Optional[list[Any]] = None,
     ) -> list[int]:
-        ret = await self.rollout_worker.generate(prompt_ids, sampling_params, request_id, image_data=image_data)
+        ret = await self.rollout.generate(prompt_ids, sampling_params, request_id, image_data=image_data)
         return ret
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     async def wake_up(self):
-        await self.rollout_worker.wake_up()
+        await self.rollout.wake_up()
         # return something to block the caller
         return True
 
     @register(dispatch_mode=Dispatch.DIRECT_ROLLOUT_METHOD)
     async def sleep(self):
-        await self.rollout_worker.sleep()
+        await self.rollout.sleep()
         # return something to block the caller
         return True
diff --git a/verl/workers/rollout/rollout_worker.py b/verl/workers/rollout/rollout_worker.py
index bd366b3c6f0..63449353238 100644
--- a/verl/workers/rollout/rollout_worker.py
+++ b/verl/workers/rollout/rollout_worker.py
@@ -126,10 +126,10 @@ def generate_sequences(self, prompts: DataProto):
         meta_info = {
             "eos_token_id": self.model_config.generation_config.eos_token_id
             if self.model_config.generation_config is not None
-            else self.model_config.processor.eos_token_id,
+            else self.model_config.tokenizer.eos_token_id,
             "pad_token_id": self.model_config.generation_config.pad_token_id
             if self.model_config.generation_config is not None
-            else self.model_config.processor.pad_token_id,
+            else self.model_config.tokenizer.pad_token_id,
         }
         prompts.meta_info.update(meta_info)