Merge pull request vllm-project#3 from vllm-project/yewentao256-patch-1

youkaichao · web-flow · commit 6150ab49414e · 2025-09-20T11:14:50.000+08:00
[Bug] Fix Einsum in DeepGEMM tests
diff --git a/support_materials/3-cuda-kernels/indexer/tests/test_attention.py b/support_materials/3-cuda-kernels/indexer/tests/test_attention.py
@@ -61,7 +61,7 @@ def ref_fp8_mqa_logits(q: torch.Tensor,
                            device='cuda')[None, :] < cu_seqlen_ke[:, None]
     mask = mask_lo & mask_hi
 
-    score = torch.einsum('mhd,and->hmn', q, k)
+    score = torch.einsum('mhd,nd->hmn', q, k)
     logits = (score.relu() * weights.unsqueeze(-1).transpose(0, 1)).sum(dim=0)
     logits = logits.masked_fill(~mask, float('-inf'))