sgl-project · zhyncs · May 29, 2025 · May 29, 2025 · May 29, 2025 · gemini-code-assist
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
@@ -271,6 +271,9 @@ def __post_init__(self):
                     mem_fraction + 48 * 1024 * (1 - mem_fraction) / gpu_mem,
                     (gpu_mem - reserve_mem) / gpu_mem,
                 )
+            else:
+                if self.speculative_algorithm is not None:
+                    self.mem_fraction_static *= 0.95
-                    self.mem_fraction_static *= 0.95
+                    self.mem_fraction_static *= _SPECULATIVE_MEM_FRACTION_ADJUSTMENT_FACTOR # Or a similarly named constant
-                    self.mem_fraction_static *= 0.95
+                    self.mem_fraction_static *= _SPECULATIVE_MEM_FRACTION_ADJUSTMENT_FACTOR # Or a similarly named constant
 
         # Set chunked prefill size, which depends on the gpu memory capacity
         if self.chunked_prefill_size is None: