vllm-project · baonudesifeizhai · Sep 18, 2025 · Sep 18, 2025 · Sep 18, 2025 · Sep 18, 2025
@@ -37,6 +37,8 @@ def _get_cross_slot_mapping(encoder_seq_lens: np.ndarray,
                             device: torch.device) -> torch.Tensor:
     """Get cross-attention slot mappings."""
 
+    encoder_seq_lens = np.atleast_1d(encoder_seq_lens)
+
     block_size = kv_cache_spec.block_size
     slot_mappings = []
 

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -886,7 +886,11 @@ def _get_encoder_seq_lens(
 
         # Build encoder_seq_lens array mapping request indices to
         # encoder lengths for inputs scheduled in this batch
-        encoder_seq_lens = np.zeros(num_reqs, dtype=np.int32)
+        num_reqs_int = int(num_reqs)
+        if num_reqs_int == 0:
+            return np.zeros((0, ), dtype=np.int32)
+
+        encoder_seq_lens = np.zeros((num_reqs_int, ), dtype=np.int32)
         for req_id in scheduler_output.scheduled_encoder_inputs:
             req_index = self.input_batch.req_id_to_index[req_id]
             encoder_seq_lens[req_index] = self.max_encoder_len