[feat] KvCompOnDevice: per-KV-head Top-K for Qwen by wangwenxin0312 · Pull Request #588 · ModelEngine-Group/unified-cache-management

wangwenxin0312 · 2025-12-25T14:59:02Z

Purpose

What this PR does / why we need it?
Enable per-KV-head Top-K selection to support Qwen models with multiple KV heads (GQA) in KvCompOnDevice.

Does this PR introduce any user-facing change?

unified-cache-management/ucm/sparse/kvcomp/ham_dist/paged_ham_dist_mla.cu
Ensure the Hamming distance kernel correctly outputs scores for each KV head.
unified-cache-management/ucm/sparse/kvcomp/hamming_topk.py
Update the Top-K selection logic to handle multi-KV-head outputs from the Hamming distance operator

How was this patch tested?
python examples/offline_inference_kvcomphbm.py

wangwenxin0312 requested review from hek14, leideng, mag1c-h, pengwwang, wuhuxiao and ygwpz as code owners December 25, 2025 14:59

[feat] KvCompOnDevice: per-KV-head Top-K for Qwen

3d417e3

wangwenxin0312 force-pushed the dev_kvcomp_qwen branch from 0c5287b to 3d417e3 Compare December 25, 2025 15:07

wuhuxiao approved these changes Dec 25, 2025

View reviewed changes

mag1c-h approved these changes Dec 26, 2025

View reviewed changes

mag1c-h merged commit 7bbed5d into ModelEngine-Group:0.2.0-release Dec 26, 2025
3 checks passed

wangwenxin0312 deleted the dev_kvcomp_qwen branch December 28, 2025 06:55