update batching test

Isotr0py · Isotr0py · commit 6c4270f03746 · 2025-12-02T00:55:49.000+08:00
Signed-off-by: Isotr0py &lt;mozf@mail2.sysu.edu.cn&gt;
diff --git a/tests/models/multimodal/generation/test_multimodal_gguf.py b/tests/models/multimodal/generation/test_multimodal_gguf.py
@@ -14,6 +14,7 @@
 
 from tests.quantization.utils import is_quant_method_supported
 from vllm.assets.image import ImageAsset
+from vllm.multimodal.image import rescale_image_size
 from vllm.utils.torch_utils import set_default_torch_num_threads
 
 from ....conftest import IMAGE_ASSETS, HfRunner, VllmRunner
@@ -96,6 +97,14 @@ def run_multimodal_gguf_test(
 ):
     # Load images at runtime (inside subprocess) to avoid pickle issues
     images = [ImageAsset(name).pil_image for name in model.image_names]
+    size_factors = [0.25, 0.5, 1.0]
+    inputs_per_image = [
+        (
+            [prompt for _ in size_factors],
+            [rescale_image_size(image, factor) for factor in size_factors],
+        )
+        for image, prompt in zip(images, _GEMMA3_PROMPTS)
+    ]
 
     # NOTE: Run vLLM first to avoid CUDA init issues with multiprocessing fork.
     # Run GGUF model via vLLM.
@@ -110,33 +119,40 @@ def run_multimodal_gguf_test(
             mm_processor_kwargs=model.mm_processor_kwargs,
         ) as gguf_model,
     ):
-        gguf_outputs = gguf_model.generate_greedy_logprobs(
-            prompts=model.prompt,
-            max_tokens=max_tokens,
-            num_logprobs=num_logprobs,
-            images=images,
-        )
+        gguf_outputs_per_case = [
+            gguf_model.generate_greedy_logprobs(
+                prompts,
+                max_tokens,
+                num_logprobs=num_logprobs,
+                images=images,
+            )
+            for prompts, images in inputs_per_image
+        ]
 
     # Run HF model via native HuggingFace (HfRunner).
     with hf_runner(
         model.original_model,
         dtype=dtype,
         auto_cls=AutoModelForImageTextToText,
     ) as hf_model:
-        hf_outputs = hf_model.generate_greedy_logprobs_limit(
-            prompts=model.prompt,
-            max_tokens=max_tokens,
-            num_logprobs=num_logprobs,
-            images=images,
+        hf_outputs_per_case = [
+            hf_model.generate_greedy_logprobs_limit(
+                prompts,
+                max_tokens,
+                num_logprobs=num_logprobs,
+                images=images,
+            )
+            for prompts, images in inputs_per_image
+        ]
+
+    for hf_outputs, gguf_outputs in zip(hf_outputs_per_case, gguf_outputs_per_case):
+        check_logprobs_close(
+            outputs_0_lst=hf_outputs,
+            outputs_1_lst=gguf_outputs,
+            name_0="hf",
+            name_1="gguf",
         )
 
-    check_logprobs_close(
-        outputs_0_lst=hf_outputs,
-        outputs_1_lst=gguf_outputs,
-        name_0="hf",
-        name_1="gguf",
-    )
-
 
 @create_new_process_for_each_test()
 @pytest.mark.skipif(