[rollout,vllm] fix: max_num_seqs not take effect (#2960)

wuxibin89 · web-flow · commit beb62461003f · 2025-08-09T06:55:21.000+08:00
diff --git a/tests/workers/rollout/rollout_vllm/test_vllm_model_rope_scaling.py b/tests/workers/rollout/rollout_vllm/test_vllm_model_rope_scaling.py
@@ -44,6 +44,7 @@ def test_vllm_rollout_with_yarn_position_embeddings():
             "free_cache_engine": False,
             "disable_log_stats": True,
             "max_model_len": 35000 + 512,
+            "max_num_seqs": 1024,
             "load_format": "auto",
             "val_kwargs": {
                 "top_k": -1,
diff --git a/verl/workers/rollout/vllm_rollout/vllm_async_server.py b/verl/workers/rollout/vllm_rollout/vllm_async_server.py
@@ -266,6 +266,7 @@ async def init_engine(self):
             disable_custom_all_reduce=True,
             skip_tokenizer_init=False,
             max_model_len=self.max_model_len,
+            max_num_seqs=config.max_num_seqs,
             load_format="auto",
             disable_log_stats=config.disable_log_stats,
             max_num_batched_tokens=max_num_batched_tokens,
diff --git a/verl/workers/rollout/vllm_rollout/vllm_rollout_spmd.py b/verl/workers/rollout/vllm_rollout/vllm_rollout_spmd.py
@@ -188,6 +188,7 @@ def __init__(self, model_path: str, config: DictConfig, tokenizer, model_hf_conf
             disable_custom_all_reduce=True,
             skip_tokenizer_init=False,
             max_model_len=max_model_len,
+            max_num_seqs=config.max_num_seqs,
             load_format=load_format,
             disable_log_stats=config.disable_log_stats,
             max_num_batched_tokens=max_num_batched_tokens,