Bug fix for Fuse Moe Lora trition kernel

chaojun-zhang · chaojun-zhang · commit c4eaac02a877 · 2025-11-10T23:10:14.000-08:00
Signed-off-by: chaojun-zhang &lt;chaojun.zhang@intel.com&gt;
diff --git a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -26,7 +26,7 @@ def _get_ptr(lora_weights: list[torch.Tensor], device: torch.device):
     tensor_ptrs = []
     for lora_weight in lora_weights:
         tensor_ptrs.append(lora_weight.data_ptr())
-    ptr_tensor = torch.tensor(tensor_ptrs, device=device)
+    ptr_tensor = torch.tensor(tensor_ptrs, device=device, dtype=torch.uint64)
 
     _LORA_PTR_DICT[key] = ptr_tensor
     return _LORA_PTR_DICT.get(key)
@@ -229,7 +229,6 @@ def _fused_moe_lora_shrink(
         "num_stages": num_stages,
         "SPLIT_K": split_k,
         "USE_GDC": use_gdc,
-        "launch_pdl": use_gdc,  # triton kernel metadata
     }
 
     b_ptr = _get_ptr(lora_a_stacked, device)
@@ -336,7 +335,6 @@ def _fused_moe_lora_expand(
         "num_stages": num_stages,
         "SPLIT_K": split_k,  # Set split_k = 1 for expand calls
         "USE_GDC": use_gdc,
-        "launch_pdl": use_gdc,  # triton kernel metadata
     }
 
     grid = lambda META: (