[fix] Fixes KV Cache overrides in trtllm-bench (NVIDIA#6103)

FrankD412 · NVShreyas · commit eac489f73bd5 · 2025-07-28T07:27:57.000-07:00
Signed-off-by: Frank Di Natale &lt;3429989+FrankD412@users.noreply.github.com&gt;
Signed-off-by: Shreyas Misra &lt;shreyasm@nvidia.com&gt;
diff --git a/tensorrt_llm/bench/dataclasses/configuration.py b/tensorrt_llm/bench/dataclasses/configuration.py
@@ -58,8 +58,6 @@ def get_llm_args(self) -> Dict:
             self.world_config.cluster_size,
             "trust_remote_code":
             True,
-            "kv_cache_config":
-            self.settings_config.get_kvcache_config(),
             "enable_chunked_prefill":
             self.settings_config.chunking,
             "extended_runtime_perf_knob_config":
@@ -82,6 +80,10 @@ def get_llm_args(self) -> Dict:
         if self.backend in backend_config_map:
             llm_args.update(backend_config_map[self.backend]())
 
+        kv_cache_config = self.settings_config.get_kvcache_config().__dict__
+        backend_cache_config = llm_args.pop("kv_cache_config", {})
+        llm_args["kv_cache_config"] = backend_cache_config | kv_cache_config
+
         return update_llm_args_with_extra_options(llm_args,
                                                   self.extra_llm_api_options)