[examples] fix config (#420)

hiyouga · web-flow · commit 3fd1928da68f · 2025-07-14T21:20:26.000+08:00
diff --git a/examples/config.yaml b/examples/config.yaml
@@ -61,15 +61,15 @@ worker:
   rollout:
     n: 5
     temperature: 1.0
-    top_p: 0.99
+    top_p: 1.0
     limit_images: 0
     gpu_memory_utilization: 0.6
     enforce_eager: false
     enable_chunked_prefill: false
     tensor_parallel_size: 2
     disable_tqdm: false
     val_override_config:
-      temperature: 0.5
+      temperature: 1.0
       n: 1
 
   ref:
diff --git a/examples/qwen3_14b_dapo17k_dapo.sh b/examples/qwen3_14b_dapo17k_dapo.sh
@@ -29,6 +29,7 @@ python3 -m verl.trainer.main \
     worker.rollout.max_num_batched_tokens=22528 \
     worker.rollout.val_override_config='{"n":16,"temperature":1.0,"top_p":0.7}' \
     worker.rollout.gpu_memory_utilization=0.8 \
+    worker.rollout.tensor_parallel_size=4 \
     worker.reward.reward_function=./examples/reward_function/dapo.py:compute_score \
     worker.reward.reward_function_kwargs='{"max_response_length":20480,"overlong_buffer_length":4096,"overlong_penalty_factor":1.0}' \
     algorithm.disable_kl=True \