volcengine
diff --git a/‎.github/workflows/sgl.yml‎
Lines changed: 13 additions & 13 deletions b/‎.github/workflows/sgl.yml‎
Lines changed: 13 additions & 13 deletions
diff --git a/‎.github/workflows/vllm.yml‎
Lines changed: 8 additions & 16 deletions b/‎.github/workflows/vllm.yml‎
Lines changed: 8 additions & 16 deletions
diff --git a/‎recipe/one_step_off_policy/megatron_workers.py‎
Lines changed: 2 additions & 10 deletions b/‎recipe/one_step_off_policy/megatron_workers.py‎
Lines changed: 2 additions & 10 deletions
diff --git a/‎tests/experimental/agent_loop/test_agent_loop_reward.py‎
Lines changed: 4 additions & 3 deletions b/‎tests/experimental/agent_loop/test_agent_loop_reward.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎tests/experimental/agent_loop/test_agent_loop_reward_model.py‎
Lines changed: 6 additions & 3 deletions b/‎tests/experimental/agent_loop/test_agent_loop_reward_model.py‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎tests/experimental/agent_loop/test_basic_agent_loop.py‎
Lines changed: 4 additions & 2 deletions b/‎tests/experimental/agent_loop/test_basic_agent_loop.py‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎tests/experimental/agent_loop/test_multi_modal.py‎
Lines changed: 3 additions & 2 deletions b/‎tests/experimental/agent_loop/test_multi_modal.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎tests/experimental/agent_loop/test_standalone_rollout.py‎
Lines changed: 89 additions & 0 deletions b/‎tests/experimental/agent_loop/test_standalone_rollout.py‎
Lines changed: 89 additions & 0 deletions
diff --git a/‎tests/special_e2e/ppo_trainer/run_function_reward.sh‎
Lines changed: 1 addition & 1 deletion b/‎tests/special_e2e/ppo_trainer/run_function_reward.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/special_sanity/check_device_api_usage.py‎
Lines changed: 2 additions & 0 deletions b/‎tests/special_sanity/check_device_api_usage.py‎
Lines changed: 2 additions & 0 deletions
@@ -98,7 +98,7 @@ jobs:
 
   sgl:
     needs: setup
-    runs-on: [ "${{ needs.setup.outputs.runner-label || 'L20x8' }}" ]
+    runs-on: ["${{ needs.setup.outputs.runner-label || 'L20x8' }}"]
     timeout-minutes: 35 # Increase this timeout value as needed
     env:
       HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
@@ -119,10 +119,18 @@ jobs:
           pip3 install -e .[test]
       - name: Download Model to Use
         run: |
-          huggingface-cli download 'Qwen/Qwen2-7B-Instruct' --local-dir ${HOME}/models/Qwen/Qwen2-7B-Instruct
-          huggingface-cli download 'Qwen/Qwen2.5-0.5B' --local-dir ${HOME}/models/Qwen/Qwen2.5-0.5B
+          huggingface-cli download Qwen/Qwen2.5-0.5B --local-dir ${HOME}/models/Qwen/Qwen2.5-0.5B
           huggingface-cli download Qwen/Qwen2.5-1.5B-Instruct --local-dir ${HOME}/models/Qwen/Qwen2.5-1.5B-Instruct
+          huggingface-cli download Qwen/Qwen2.5-VL-3B-Instruct --local-dir ${HOME}/models/Qwen/Qwen2.5-VL-3B-Instruct
           export HF_HUB_OFFLINE=1
+      - name: Prepare gsm8k dataset
+        run: |
+          ray stop --force
+          python3 examples/data_preprocess/gsm8k.py
+      - name: Test the latest SGLang Rollout async with agent loop
+        run: |
+          huggingface-cli download verl-team/gsm8k-v0.4.1 --repo-type dataset --local-dir ~/verl-data/gsm8k
+          ROLLOUT_NAME=sglang pytest -svvv tests/experimental/agent_loop
       - name: Test the latest SGLang
         run: |
           cd tests/workers/rollout
@@ -151,10 +159,6 @@ jobs:
         run: |
           cd tests/workers/rollout
           pytest -s test_sglang_async_rollout_mcp_tools.py
-      - name: Test the latest SGLang Rollout async with agent loop
-        run: |
-          huggingface-cli download verl-team/gsm8k-v0.4.1 --repo-type dataset --local-dir ~/verl-data/gsm8k
-          ROLLOUT_NAME=sglang pytest -svvv tests/experimental/agent_loop
       # Note(haibin.lin): for any new test, please update gpu_unit_tests.yaml to avoid repeated tests
       - name: Test the latest SGLang Rollout async with multimodal delta
         run: |
@@ -163,16 +167,12 @@ jobs:
 
   cleanup:
     runs-on: ubuntu-latest
-    needs:
-      [
-        setup,
-        sgl
-      ]
+    needs: [setup, sgl]
     if: always()
     steps:
       - id: destroy-runner
         uses: volcengine/vemlp-github-runner@v1
         with:
           mode: "destroy"
           faas-url: "${{ env.DYNAMIC_RUNNER_ENDPOINT }}"
-          mlp-task-id: "${{ needs.setup.outputs.mlp-task-id }}"
+          mlp-task-id: "${{ needs.setup.outputs.mlp-task-id }}"
@@ -95,7 +95,7 @@ jobs:
 
   vllm:
     needs: setup
-    runs-on: [ "${{ needs.setup.outputs.runner-label || 'L20x8' }}" ]
+    runs-on: ["${{ needs.setup.outputs.runner-label || 'L20x8' }}"]
     timeout-minutes: 35 # Increase this timeout value as needed
     env:
       HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
@@ -110,20 +110,20 @@ jobs:
       - name: Install the current repository
         run: |
           pip3 install -e .[test]
-          pip install tensordict==0.6.2
       - name: Download Model to Use
         run: |
           huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct --local-dir ${HOME}/models/Qwen/Qwen2.5-0.5B-Instruct
           huggingface-cli download Qwen/Qwen2.5-1.5B-Instruct --local-dir ${HOME}/models/Qwen/Qwen2.5-1.5B-Instruct
-          huggingface-cli download 'Qwen/Qwen2-7B-Instruct' --local-dir ${HOME}/models/Qwen/Qwen2-7B-Instruct
-          huggingface-cli download 'deepseek-ai/deepseek-llm-7b-chat' --local-dir ${HOME}/models/deepseek-ai/deepseek-llm-7b-chat
-          huggingface-cli download 'OldKingMeister/Qwen2.5-1.5B-Instruct-YaRN' --local-dir $HOME/models/OldKingMeister/Qwen2.5-1.5B-Instruct-YaRN
+          huggingface-cli download Qwen/Qwen2.5-VL-3B-Instruct --local-dir ${HOME}/models/Qwen/Qwen2.5-VL-3B-Instruct
+          huggingface-cli download OldKingMeister/Qwen2.5-1.5B-Instruct-YaRN --local-dir ${HOME}/models/OldKingMeister/Qwen2.5-1.5B-Instruct-YaRN
           export HF_HUB_OFFLINE=1
-        # Disable requests to avoid network errors
       - name: Prepare gsm8k dataset
         run: |
           ray stop --force
           python3 examples/data_preprocess/gsm8k.py
+      - name: Test the latest vLLM Rollout async with agent loop
+        run: |
+          ROLLOUT_NAME=vllm pytest -svvv tests/experimental/agent_loop
       - name: Test the latest vLLM
         run: |
           torchrun --standalone --nnodes=1 --nproc_per_node=4 $(which pytest) -s tests/workers/rollout/rollout_vllm/test_vllm_spmd.py
@@ -142,24 +142,16 @@ jobs:
           export OUTPUT_PATH="${HOME}/data/gen/qwen_05_gen_test.parquet"
           MODEL_ID=${HOME}/models/Qwen/Qwen2.5-0.5B-Instruct NGPUS_PER_NODE=1 GEN_TP=1 bash ./run_gen_qwen05.sh
           rm -rf "${OUTPUT_PATH}"
-      - name: Test the latest vLLM Rollout async with agent loop
-        run: |
-          huggingface-cli download verl-team/gsm8k-v0.4.1 --repo-type dataset --local-dir ~/verl-data/gsm8k
-          ROLLOUT_NAME=vllm pytest -svvv tests/experimental/agent_loop
       # Note(haibin.lin): for any new test, please update gpu_unit_tests.yaml to avoid repeated tests
 
   cleanup:
     runs-on: ubuntu-latest
-    needs:
-      [
-        setup,
-        vllm
-      ]
+    needs: [setup, vllm]
     if: always()
     steps:
       - id: destroy-runner
         uses: volcengine/vemlp-github-runner@v1
         with:
           mode: "destroy"
           faas-url: "${{ env.DYNAMIC_RUNNER_ENDPOINT }}"
-          mlp-task-id: "${{ needs.setup.outputs.mlp-task-id }}"
+          mlp-task-id: "${{ needs.setup.outputs.mlp-task-id }}"
@@ -13,13 +13,12 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import copy
 import logging
 import os
 
 import torch
 import torch.distributed
-from omegaconf import DictConfig, OmegaConf, open_dict
+from omegaconf import DictConfig, OmegaConf
 
 from verl.single_controller.base.decorator import Dispatch, make_nd_compute_dataproto_dispatch_fn, register
 from verl.utils.config import omega_conf_to_dataclass
@@ -180,14 +179,7 @@ def init_model(self):
         log_gpu_memory_usage("Before building vllm rollout", logger=None)
 
         rollout_config: RolloutConfig = omega_conf_to_dataclass(self.config.rollout)
-        # (vermouth1992). self.config.model in megatron differs from that of fsdp in the override_config.
-        # To workaround this we deepcopy self.config.model and make them compatible
-        omega_model_config = copy.deepcopy(self.config.model)
-        with open_dict(omega_model_config):
-            override_config = omega_model_config.override_config.pop("model_config")
-            omega_model_config.override_config = override_config
-
-        model_config: HFModelConfig = omega_conf_to_dataclass(omega_model_config, dataclass_type=HFModelConfig)
+        model_config: HFModelConfig = omega_conf_to_dataclass(self.config.model, dataclass_type=HFModelConfig)
         rollout = get_rollout_class(rollout_config.name, rollout_config.mode)(
             config=rollout_config, model_config=model_config, device_mesh=rollout_device_mesh
         )
 
@@ -18,7 +18,7 @@
 from torchdata.stateful_dataloader import StatefulDataLoader
 from transformers import AutoTokenizer
 
-from tests.experimental.agent_loop.agent_utils import init_agent_loop_manager
+from verl.experimental.agent_loop import AgentLoopManager
 from verl.protocol import DataProto
 from verl.trainer.main_ppo import create_rl_sampler
 from verl.utils.dataset.rl_dataset import RLHFDataset, collate_fn
@@ -45,15 +45,16 @@ def test_agent_loop_compute_score():
     config.actor_rollout_ref.actor.use_dynamic_bsz = True
     config.actor_rollout_ref.rollout.name = os.environ["ROLLOUT_NAME"]
     config.actor_rollout_ref.rollout.mode = "async"
+    config.actor_rollout_ref.rollout.enforce_eager = True
     config.actor_rollout_ref.rollout.prompt_length = 1024
     config.actor_rollout_ref.rollout.response_length = 4096
     config.actor_rollout_ref.rollout.skip_tokenizer_init = True
 
     # 1. init agent loop manager
-    agent_loop_manager = init_agent_loop_manager(config)
+    agent_loop_manager = AgentLoopManager(config)
 
     # 2. init dataset and dataloader
-    local_folder = os.path.expanduser("~/verl-data/gsm8k/")
+    local_folder = os.path.expanduser("~/data/gsm8k/")
     data_files = [os.path.join(local_folder, "train.parquet")]
     tokenizer = AutoTokenizer.from_pretrained(model_path)
 
 
@@ -13,17 +13,19 @@
 # limitations under the License.
 import os
 
+import pytest
 import ray
 from hydra import compose, initialize_config_dir
 from torchdata.stateful_dataloader import StatefulDataLoader
 from transformers import AutoTokenizer
 
-from tests.experimental.agent_loop.agent_utils import init_agent_loop_manager
+from tests.experimental.agent_loop.agent_utils import AgentLoopManager
 from verl.protocol import DataProto
 from verl.trainer.main_ppo import create_rl_sampler
 from verl.utils.dataset.rl_dataset import RLHFDataset, collate_fn
 
 
+@pytest.mark.skip(reason="reward model is depreated and replaced by GRM")
 def test_agent_loop_compute_score_with_model():
     ray.init(
         runtime_env={
@@ -45,6 +47,7 @@ def test_agent_loop_compute_score_with_model():
     config.actor_rollout_ref.actor.use_dynamic_bsz = True
     config.actor_rollout_ref.rollout.name = os.environ["ROLLOUT_NAME"]
     config.actor_rollout_ref.rollout.mode = "async"
+    config.actor_rollout_ref.rollout.enforce_eager = True
     config.actor_rollout_ref.rollout.prompt_length = 1024
     config.actor_rollout_ref.rollout.response_length = 4096
     config.actor_rollout_ref.rollout.skip_tokenizer_init = True
@@ -61,10 +64,10 @@ def test_agent_loop_compute_score_with_model():
     config.trainer.n_gpus_per_node = 4
     config.trainer.nnodes = 1
     # 1. init agent loop manager
-    agent_loop_manager = init_agent_loop_manager(config)
+    agent_loop_manager = AgentLoopManager(config)
 
     # 2. init dataset and dataloader
-    local_folder = os.path.expanduser("~/verl-data/gsm8k/")
+    local_folder = os.path.expanduser("~/data/gsm8k/")
     data_files = [os.path.join(local_folder, "train.parquet")]
     tokenizer = AutoTokenizer.from_pretrained(model_path)
 
 
@@ -22,6 +22,7 @@
 from transformers.utils import get_json_schema
 
 from tests.experimental.agent_loop.agent_utils import init_agent_loop_manager
+from verl.experimental.agent_loop import AgentLoopManager
 from verl.experimental.agent_loop.agent_loop import get_trajectory_info
 from verl.protocol import DataProto
 from verl.tools.base_tool import BaseTool, OpenAIFunctionToolSchema
@@ -53,6 +54,7 @@ def init_config() -> DictConfig:
     config.actor_rollout_ref.model.path = model_path
     config.actor_rollout_ref.rollout.name = os.environ["ROLLOUT_NAME"]
     config.actor_rollout_ref.rollout.mode = "async"
+    config.actor_rollout_ref.rollout.enforce_eager = True
     config.actor_rollout_ref.rollout.prompt_length = 4096
     config.actor_rollout_ref.rollout.response_length = 4096
     config.actor_rollout_ref.rollout.n = 4
@@ -74,7 +76,7 @@ def test_single_turn(init_config):
         }
     )
 
-    agent_loop_manager = init_agent_loop_manager(init_config)
+    agent_loop_manager = AgentLoopManager(init_config)
     tokenizer = hf_tokenizer(init_config.actor_rollout_ref.model.path)
     reward_fn = load_reward_manager(
         init_config, tokenizer, num_examine=0, **init_config.reward_model.get("reward_kwargs", {})
@@ -223,7 +225,7 @@ def test_tool_agent(init_config):
     init_config.actor_rollout_ref.rollout.multi_turn.tool_config_path = tool_config_path
     init_config.actor_rollout_ref.rollout.multi_turn.max_parallel_calls = 2
     init_config.actor_rollout_ref.rollout.calculate_log_probs = True
-    agent_loop_manager = init_agent_loop_manager(init_config)
+    agent_loop_manager = AgentLoopManager(init_config)
 
     # =========================== 2. Generate sequences  ===========================
     raw_prompts = [
 
@@ -22,7 +22,7 @@
 from PIL import Image
 from transformers.utils import get_json_schema
 
-from tests.experimental.agent_loop.agent_utils import init_agent_loop_manager
+from verl.experimental.agent_loop import AgentLoopManager
 from verl.protocol import DataProto
 from verl.tools.base_tool import BaseTool, OpenAIFunctionToolSchema
 from verl.tools.schemas import ToolResponse
@@ -48,6 +48,7 @@ def init_config() -> DictConfig:
     config.actor_rollout_ref.model.path = model_path
     config.actor_rollout_ref.rollout.name = os.environ["ROLLOUT_NAME"]
     config.actor_rollout_ref.rollout.mode = "async"
+    config.actor_rollout_ref.rollout.enforce_eager = True
     config.actor_rollout_ref.rollout.prompt_length = 4096
     config.actor_rollout_ref.rollout.response_length = 4096
     config.actor_rollout_ref.rollout.n = 4
@@ -147,7 +148,7 @@ def test_multimodal_tool_agent(init_config):
     init_config.actor_rollout_ref.rollout.multi_turn.tool_config_path = tool_config_path
     init_config.actor_rollout_ref.rollout.multi_turn.max_parallel_calls = 1
     init_config.actor_rollout_ref.rollout.multi_turn.max_user_turns = 1
-    agent_loop_manager = init_agent_loop_manager(init_config)
+    agent_loop_manager = AgentLoopManager(init_config)
 
     # =========================== 2. Generate sequences with multimodal prompts ===========================
     raw_prompts = [
 
@@ -0,0 +1,89 @@
+# Copyright 2024 Bytedance Ltd. and/or its affiliates
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import asyncio
+import os
+
+import pytest
+import ray
+from omegaconf import DictConfig
+from openai import AsyncOpenAI
+
+from verl.workers.rollout.replica import get_rollout_replica_class
+
+
+@pytest.fixture
+def init_config() -> DictConfig:
+    from hydra import compose, initialize_config_dir
+
+    with initialize_config_dir(config_dir=os.path.abspath("verl/trainer/config")):
+        config = compose(config_name="ppo_trainer")
+
+    config.trainer.n_gpus_per_node = 4
+    config.trainer.nnodes = 2
+    config.actor_rollout_ref.model.path = os.path.expanduser("~/models/Qwen/Qwen2.5-1.5B-Instruct")
+    config.actor_rollout_ref.rollout.name = os.environ["ROLLOUT_NAME"]
+    config.actor_rollout_ref.rollout.load_format = "auto"
+    config.actor_rollout_ref.rollout.enforce_eager = True
+
+    return config
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("tp_size", [2, 4])
+async def test_standalone_(init_config, tp_size):
+    """Test standalone rollout single node and multi nodes."""
+    ray.init(
+        runtime_env={
+            "env_vars": {
+                "TOKENIZERS_PARALLELISM": "true",
+                "NCCL_DEBUG": "WARN",
+                "VLLM_LOGGING_LEVEL": "INFO",
+                "VLLM_USE_V1": "1",
+            }
+        }
+    )
+
+    init_config.actor_rollout_ref.rollout.skip_tokenizer_init = False
+    init_config.actor_rollout_ref.rollout.tensor_model_parallel_size = tp_size
+    num_replicas = (init_config.trainer.n_gpus_per_node * init_config.trainer.nnodes) // tp_size
+
+    # create standalone rollout server
+    rollout_server_class = get_rollout_replica_class(init_config.actor_rollout_ref.rollout.name)
+    rollout_servers = [
+        rollout_server_class(replica_rank=replica_rank, config=init_config, gpus_per_node=2)
+        for replica_rank in range(num_replicas)
+    ]
+    await asyncio.gather(*[server.init_standalone() for server in rollout_servers])
+
+    server_handles = [server._server_handle for server in rollout_servers]
+    server_addresses = [server._server_address for server in rollout_servers]
+    assert len(server_handles) == num_replicas
+    assert len(server_addresses) == num_replicas
+
+    os.environ.pop("HTTPS_PROXY", None)
+    os.environ.pop("HTTP_PROXY", None)
+    os.environ.pop("NO_PROXY", None)
+
+    client = AsyncOpenAI(
+        api_key="123-abc",
+        base_url=f"http://{server_addresses[0]}/v1",
+    )
+
+    completion = await client.chat.completions.create(
+        model=init_config.actor_rollout_ref.model.path,
+        messages=[{"role": "user", "content": "What can you do?"}],
+    )
+    print(completion.choices[0].message.content)
+
+    ray.shutdown()
@@ -41,7 +41,7 @@ LORA_ALPHA=${LORA_ALPHA:-${LORA_RANK}}
 LORA_TARGET=${LORA_TARGET:-"all-linear"}
 LORA_EXCLUDE=${LORA_EXCLUDE:-"DONT_EXCLUDE"}
 USE_SHM=${USE_SHM:-False}
-LOAD_FORMAT=${LOAD_FORMAT:-dummy_dtensor}
+LOAD_FORMAT=${LOAD_FORMAT:-dummy}
 LAYERED_SUMMON=${LAYERED_SUMMON:-False}
 # Validation
 VAL_BEFORE_TRAIN=${VAL_BEFORE_TRAIN:-False}
 
@@ -38,6 +38,8 @@
     "verl/workers/reward_model/megatron/reward_model.py",  # appear in default device_name
     "verl/third_party/torch/distributed/_state_dict_utils.py",  # torch monkey patch fixes
     "verl/third_party/torch/distributed/checkpoint/state_dict.py",  # torch monkey patch fixes
+    "verl/workers/rollout/vllm_rollout/vllm_async_server.py",  # appear in config.cudagraph_capture_sizes
+    "verl/workers/rollout/sglang_rollout/async_sglang_server.py",  # manually set CUDA_VISIBLE_DEVICES
 ]
 
 # directory or file path must contain keyword "nccl"
Original file line number	Diff line number	Diff line change
`@@ -38,6 +38,8 @@`
`38`	`38`	`"verl/workers/reward_model/megatron/reward_model.py", # appear in default device_name`
`39`	`39`	`"verl/third_party/torch/distributed/_state_dict_utils.py", # torch monkey patch fixes`
`40`	`40`	`"verl/third_party/torch/distributed/checkpoint/state_dict.py", # torch monkey patch fixes`
	`41`	`+ "verl/workers/rollout/vllm_rollout/vllm_async_server.py", # appear in config.cudagraph_capture_sizes`
	`42`	`+ "verl/workers/rollout/sglang_rollout/async_sglang_server.py", # manually set CUDA_VISIBLE_DEVICES`
`41`	`43`	`]`
`42`	`44`
`43`	`45`	`# directory or file path must contain keyword "nccl"`