vllm-project · hsliuustc0106 · Dec 9, 2025 · Dec 9, 2025
@@ -20,6 +20,7 @@ stage_args:
       engine_output_type: latent  # Output hidden states for talker
       distributed_executor_backend: "mp"
       enable_prefix_caching: false
+      max_num_batched_tokens: 32768
       hf_config_name: thinker_config
       tensor_parallel_size: 2
     final_output: true
@@ -49,6 +50,7 @@ stage_args:
        engine_output_type: latent  # Output codec codes for code2wav
       #  tensor_parallel_size: 2
        enable_prefix_caching: false
+       max_num_batched_tokens: 32768
        distributed_executor_backend: "mp"
        hf_config_name: talker_config
     engine_input_source: [0]