[XPU] support fp16 weight_scale in op weight_only_linear (#73963)

cqulilujia · web-flow · commit 29d010403be9 · 2025-07-16T10:40:25.000+08:00
diff --git a/paddle/phi/kernels/xpu/weight_only_linear_kernel.cc b/paddle/phi/kernels/xpu/weight_only_linear_kernel.cc
@@ -60,14 +60,34 @@ void WeightOnlyLinearKernel(const Context& dev_ctx,
       input_y, nullptr, m, n, n, false};
   baidu::xpu::xblas::FcFusionTensor<XPUType> tensor_y{
       input_y, nullptr, m, n, n, false};
+  DenseTensor weight_scale_fp32;
+  if (weight_scale.dtype() != phi::DataType::FLOAT32 &&
+      weight_scale.dims().size() != 0) {
+    weight_scale_fp32.Resize(weight_scale.dims());
+    dev_ctx.template Alloc<float>(&weight_scale_fp32);
+    int r = baidu::xpu::api::cast<XPUType, float>(
+        dev_ctx.x_context(),
+        reinterpret_cast<const XPUType*>(weight_scale.data<T>()),
+        weight_scale_fp32.data<float>(),
+        weight_scale.numel());
+    PADDLE_ENFORCE_XDNN_SUCCESS(r, "cast");
+  }
+  const float* weight_scale_ptr = nullptr;
+  if (weight_scale.dims().size() != 0) {
+    if (weight_scale.dtype() == phi::DataType::FLOAT32) {
+      weight_scale_ptr = weight_scale.data<float>();
+    } else {
+      weight_scale_ptr = weight_scale_fp32.data<float>();
+    }
+  }
   baidu::xpu::xblas::FcFusionEpilogue<float, float> epilogue{
       api::Activation_t::LINEAR,
       bias.is_initialized() ? (bias.get().dtype() == phi::DataType::FLOAT16
                                    ? bias_fp32.data<float>()
                                    : bias.get().data<float>())
                             : nullptr,
       nullptr,
-      weight_scale.dims().size() != 0 ? weight_scale.data<float>() : nullptr,
+      weight_scale_ptr,
       0,
       1,
       nullptr};