[Bugfix][Model] OLMo 2: split qkv correctly for GQA and MQA (vllm-project#13687)

2015aroras · lulmer · commit f279cae620c8 · 2025-04-07T07:38:19.000Z
Signed-off-by: Louis Ulmer &lt;ulmerlouis@gmail.com&gt;
diff --git a/vllm/model_executor/models/olmo2.py b/vllm/model_executor/models/olmo2.py
@@ -157,7 +157,7 @@ def forward(
         attn_metadata: AttentionMetadata,
     ) -> torch.Tensor:
         qkv, _ = self.qkv_proj(hidden_states)
-        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
         q, k = self._apply_qk_norm(q, k)
         q, k = self.rotary_emb(positions, q, k)
         attn_output = self.attn(q, k, v, kv_cache, attn_metadata)