try not to discriminate between 0.5 and 0.6

ultmaster · ultmaster · commit 90db3cc62444 · 2025-10-31T10:25:30.000+08:00
diff --git a/agentlightning/verl/entrypoint.py b/agentlightning/verl/entrypoint.py
@@ -41,10 +41,11 @@ def run_ppo(
 ) -> None:
     if not ray.is_initialized():
         # this is for local ray cluster
-        installed_verl = version("verl")
-        if packaging_version.parse(installed_verl) >= packaging_version.parse("0.6.0"):
+        try:
+            # verl >= 0.6.0
             num_cpus = config.ray_kwargs.ray_init.num_cpus
-        else:
+        except AttributeError:
+            # verl < 0.6.0
             num_cpus = config.ray_init.num_cpus
         ray.init(
             runtime_env={
diff --git a/examples/calc_x/train_calc_agent.py b/examples/calc_x/train_calc_agent.py
@@ -60,6 +60,12 @@ def verl_default_config() -> Dict[str, Any]:
                 "multi_turn": {"format": "hermes"},
                 "name": "vllm",
                 "gpu_memory_utilization": 0.6,
+                "engine_kwargs": {
+                    "vllm": {
+                        "enable_auto_tool_choice": True,
+                        "tool_call_parser": "hermes",
+                    }
+                },
             },
             "actor": {
                 "ppo_mini_batch_size": 32,
@@ -98,14 +104,14 @@ def verl_default_config() -> Dict[str, Any]:
             "total_epochs": 2,
         },
     }
-    installed_verl = version("verl")
-    if packaging_version.parse(installed_verl) >= packaging_version.parse("0.6.0"):
-        config["actor_rollout_ref"]["rollout"]["engine_kwargs"] = {
-            "vllm": {
-                "enable_auto_tool_choice": True,
-                "tool_call_parser": "hermes",
-            },
-        }
+    # installed_verl = version("verl")
+    # if packaging_version.parse(installed_verl) >= packaging_version.parse("0.6.0"):
+    #     config["actor_rollout_ref"]["rollout"]["engine_kwargs"] = {
+    #         "vllm": {
+    #             "enable_auto_tool_choice": True,
+    #             "tool_call_parser": "hermes",
+    #         },
+    #     }
     return config
 
 
diff --git a/examples/spider/train_sql_agent.py b/examples/spider/train_sql_agent.py
@@ -52,6 +52,12 @@
             "multi_turn": {"format": "hermes"},
             "name": "vllm",
             "gpu_memory_utilization": 0.8,
+            "engine_kwargs": {
+                "vllm": {
+                    "enable_auto_tool_choice": True,
+                    "tool_call_parser": "hermes",
+                }
+            },
         },
         "actor": {
             "ppo_mini_batch_size": 32,
@@ -139,6 +145,7 @@ def config_train_llama() -> Dict[str, Any]:
 
     config = deepcopy(RL_TRAINING_CONFIG)
     config["actor_rollout_ref"]["rollout"]["multi_turn"]["format"] = "llama3_json"
+    config["actor_rollout_ref"]["rollout"]["engine_kwargs"]["vllm"]["tool_call_parser"] = "llama3_json"
     config["actor_rollout_ref"]["model"]["path"] = "meta-llama/Llama-3.2-1B-Instruct"
     return config