[深度对齐]Divide (#75379)

cszdrg · web-flow · commit ce96a90b28b5 · 2025-09-28T14:53:44.000+08:00
* fix

* fix

* fix

* fix

* fix
diff --git a/paddle/phi/common/complex.h b/paddle/phi/common/complex.h
@@ -230,16 +230,62 @@ HOSTDEVICE inline complex<T> operator*(const complex<T>& a,
 }
 
 template <typename T>
-HOSTDEVICE inline complex<T> operator/(const complex<T>& a,
-                                       const complex<T>& b) {
-#if defined(PADDLE_WITH_CUDA_OR_HIP_COMPLEX) && \
-    (defined(__CUDA_ARCH__) || defined(__HIPCC__))
-  return complex<T>(thrust::complex<T>(a) / thrust::complex<T>(b));
-#else
-  T denominator = b.real * b.real + b.imag * b.imag;
-  return complex<T>((a.real * b.real + a.imag * b.imag) / denominator,
-                    (a.imag * b.real - a.real * b.imag) / denominator);
-#endif
+HOSTDEVICE inline complex<T> operator/(const complex<T>& x,
+                                       const complex<T>& y) {
+  T a = x.real;
+  T b = x.imag;
+  T c = y.real;
+  T d = y.imag;
+
+  // (a + bi) / (c + di) = (ac + bd)/(c^2 + d^2) + (bc - ad)/(c^2 + d^2) i
+  // the calculation below follows numpy's complex division
+#if defined(__GNUC__) && !defined(__clang__)
+  // std::abs is already constexpr by gcc
+  auto abs_c = std::abs(c);
+  auto abs_d = std::abs(d);
+#else
+  auto abs_c = c < 0 ? -c : c;
+  auto abs_d = d < 0 ? -d : d;
+#endif
+  T real_, imag_;
+
+  auto rat = (abs_c >= abs_d) ? (d / c) : (c / d);
+  auto scl =
+      (abs_c >= abs_d) ? (T(1.0) / (c + d * rat)) : (T(1.0) / (d + c * rat));
+  if (abs_c >= abs_d) {
+#if __cplusplus >= 201703L
+    if constexpr (std::is_same_v<T, float>) {
+      real_ = std::fmaf(b, rat, a) * scl;
+      imag_ = std::fmaf(-a, rat, b) * scl;
+    } else if constexpr (std::is_same_v<T, double>) {
+      real_ = std::fma(b, rat, a) * scl;
+      imag_ = std::fma(-a, rat, b) * scl;
+    } else {
+      real_ = (a + b * rat) * scl;
+      imag_ = (b - a * rat) * scl;
+    }
+#else
+    real_ = (a + b * rat) * scl;
+    imag_ = (b - a * rat) * scl;
+#endif
+  } else {
+#if __cplusplus >= 201703L
+    if constexpr (std::is_same_v<T, float>) {
+      real_ = std::fmaf(a, rat, b) * scl;
+      imag_ = std::fmaf(b, rat, -a) * scl;
+    } else if constexpr (std::is_same_v<T, double>) {
+      real_ = std::fma(a, rat, b) * scl;
+      imag_ = std::fma(b, rat, -a) * scl;
+    } else {
+      real_ = (a * rat + b) * scl;
+      imag_ = (b * rat - a) * scl;
+    }
+#else
+    real_ = (a * rat + b) * scl;
+    imag_ = (b * rat - a) * scl;
+#endif
+  }
+  return complex<T>(real_, imag_);
 }
 
 template <typename T>
@@ -303,19 +349,63 @@ HOSTDEVICE inline complex<T>& operator*=(complex<T>& a,  // NOLINT
 }
 
 template <typename T>
-HOSTDEVICE inline complex<T>& operator/=(complex<T>& a,  // NOLINT
-                                         const complex<T>& b) {
-#if defined(PADDLE_WITH_CUDA_OR_HIP_COMPLEX) && \
-    (defined(__CUDA_ARCH__) || defined(__HIPCC__))
-  a = complex<T>(thrust::complex<T>(a.real, a.imag) /=
-                 thrust::complex<T>(b.real, b.imag));
-  return a;
-#else
-  T denominator = b.real * b.real + b.imag * b.imag;
-  a.real = (a.real * b.real + a.imag * b.imag) / denominator;
-  a.imag = (a.imag * b.real - a.real * b.imag) / denominator;
-  return a;
-#endif
+HOSTDEVICE inline complex<T>& operator/=(complex<T>& x,  // NOLINT
+                                         const complex<T>& y) {
+  T a = x.real;
+  T b = x.imag;
+  T c = y.real;
+  T d = y.imag;
+
+  // (a + bi) / (c + di) = (ac + bd)/(c^2 + d^2) + (bc - ad)/(c^2 + d^2) i
+  // the calculation below follows numpy's complex division
+#if defined(__GNUC__) && !defined(__clang__)
+  // std::abs is already constexpr by gcc
+  auto abs_c = std::abs(c);
+  auto abs_d = std::abs(d);
+#else
+  auto abs_c = c < 0 ? -c : c;
+  auto abs_d = d < 0 ? -d : d;
+#endif
+  T real_, imag_;
+
+  auto rat = (abs_c >= abs_d) ? (d / c) : (c / d);
+  auto scl =
+      (abs_c >= abs_d) ? (T(1.0) / (c + d * rat)) : (T(1.0) / (d + c * rat));
+  if (abs_c >= abs_d) {
+#if __cplusplus >= 201703L
+    if constexpr (std::is_same_v<T, float>) {
+      real_ = std::fmaf(b, rat, a) * scl;
+      imag_ = std::fmaf(-a, rat, b) * scl;
+    } else if constexpr (std::is_same_v<T, double>) {
+      real_ = std::fma(b, rat, a) * scl;
+      imag_ = std::fma(-a, rat, b) * scl;
+    } else {
+      real_ = (a + b * rat) * scl;
+      imag_ = (b - a * rat) * scl;
+    }
+#else
+    real_ = (a + b * rat) * scl;
+    imag_ = (b - a * rat) * scl;
+#endif
+  } else {
+#if __cplusplus >= 201703L
+    if constexpr (std::is_same_v<T, float>) {
+      real_ = std::fmaf(a, rat, b) * scl;
+      imag_ = std::fmaf(b, rat, -a) * scl;
+    } else if constexpr (std::is_same_v<T, double>) {
+      real_ = std::fma(a, rat, b) * scl;
+      imag_ = std::fma(b, rat, -a) * scl;
+    } else {
+      real_ = (a * rat + b) * scl;
+      imag_ = (b * rat - a) * scl;
+    }
+#else
+    real_ = (a * rat + b) * scl;
+    imag_ = (b * rat - a) * scl;
+#endif
+  }
+  x = complex<T>(real_, imag_);
+  return x;
 }
 
 template <typename T>
diff --git a/paddle/phi/kernels/funcs/elementwise_functor.h b/paddle/phi/kernels/funcs/elementwise_functor.h
@@ -142,23 +142,44 @@ struct DivideFunctor<ComplexType<T>> {
 #endif
 
     T real_, imag_;
+
+    auto rat = (abs_c >= abs_d) ? (d / c) : (c / d);
+    auto scl =
+        (abs_c >= abs_d) ? (T(1.0) / (c + d * rat)) : (T(1.0) / (d + c * rat));
     if (abs_c >= abs_d) {
-      if (abs_c == T(0) && abs_d == T(0)) {
-        /* divide by zeros should yield a complex inf or nan */
-        real_ = a / abs_c;
-        imag_ = b / abs_d;
+#if __cplusplus >= 201703L
+      if constexpr (std::is_same_v<T, float>) {
+        real_ = std::fmaf(b, rat, a) * scl;
+        imag_ = std::fmaf(-a, rat, b) * scl;
+      } else if constexpr (std::is_same_v<T, double>) {
+        real_ = std::fma(b, rat, a) * scl;
+        imag_ = std::fma(-a, rat, b) * scl;
       } else {
-        auto rat = d / c;
-        auto scl = T(1.0) / (c + d * rat);
         real_ = (a + b * rat) * scl;
         imag_ = (b - a * rat) * scl;
       }
+#else
+      real_ = (a + b * rat) * scl;
+      imag_ = (b - a * rat) * scl;
+#endif
     } else {
-      auto rat = c / d;
-      auto scl = T(1.0) / (d + c * rat);
+#if __cplusplus >= 201703L
+      if constexpr (std::is_same_v<T, float>) {
+        real_ = std::fmaf(a, rat, b) * scl;
+        imag_ = std::fmaf(b, rat, -a) * scl;
+      } else if constexpr (std::is_same_v<T, double>) {
+        real_ = std::fma(a, rat, b) * scl;
+        imag_ = std::fma(b, rat, -a) * scl;
+      } else {
+        real_ = (a * rat + b) * scl;
+        imag_ = (b * rat - a) * scl;
+      }
+#else
       real_ = (a * rat + b) * scl;
       imag_ = (b * rat - a) * scl;
+#endif
     }
+
     return ComplexType<T>(real_, imag_);
   }
 };
@@ -184,23 +205,44 @@ struct InverseDivideFunctor<ComplexType<T>> {
 #endif
 
     T real_, imag_;
+
+    auto rat = (abs_c >= abs_d) ? (d / c) : (c / d);
+    auto scl =
+        (abs_c >= abs_d) ? (T(1.0) / (c + d * rat)) : (T(1.0) / (d + c * rat));
     if (abs_c >= abs_d) {
-      if (abs_c == T(0) && abs_d == T(0)) {
-        /* divide by zeros should yield a complex inf or nan */
-        real_ = a / abs_c;
-        imag_ = b / abs_d;
+#if __cplusplus >= 201703L
+      if constexpr (std::is_same_v<T, float>) {
+        real_ = std::fmaf(b, rat, a) * scl;
+        imag_ = std::fmaf(-a, rat, b) * scl;
+      } else if constexpr (std::is_same_v<T, double>) {
+        real_ = std::fma(b, rat, a) * scl;
+        imag_ = std::fma(-a, rat, b) * scl;
       } else {
-        auto rat = d / c;
-        auto scl = T(1.0) / (c + d * rat);
         real_ = (a + b * rat) * scl;
         imag_ = (b - a * rat) * scl;
       }
+#else
+      real_ = (a + b * rat) * scl;
+      imag_ = (b - a * rat) * scl;
+#endif
     } else {
-      auto rat = c / d;
-      auto scl = T(1.0) / (d + c * rat);
+#if __cplusplus >= 201703L
+      if constexpr (std::is_same_v<T, float>) {
+        real_ = std::fmaf(a, rat, b) * scl;
+        imag_ = std::fmaf(b, rat, -a) * scl;
+      } else if constexpr (std::is_same_v<T, double>) {
+        real_ = std::fma(a, rat, b) * scl;
+        imag_ = std::fma(b, rat, -a) * scl;
+      } else {
+        real_ = (a * rat + b) * scl;
+        imag_ = (b * rat - a) * scl;
+      }
+#else
       real_ = (a * rat + b) * scl;
       imag_ = (b * rat - a) * scl;
+#endif
     }
+
     return ComplexType<T>(real_, imag_);
   }
 };
@@ -776,22 +818,41 @@ struct RemainderFunctor<ComplexType<T>> {
 #endif
 
     T real_, imag_;
+    auto rat = (abs_c >= abs_d) ? (d__ / c__) : (c__ / d__);
+    auto scl = (abs_c >= abs_d) ? (T(1.0) / (c__ + d__ * rat))
+                                : (T(1.0) / (d__ + c__ * rat));
     if (abs_c >= abs_d) {
-      if (abs_c == T(0) && abs_d == T(0)) {
-        /* divide by zeros should yield a complex inf or nan */
-        real_ = a__ / abs_c;
-        imag_ = b__ / abs_d;
+#if __cplusplus >= 201703L
+      if constexpr (std::is_same_v<T, float>) {
+        real_ = std::fmaf(b__, rat, a__) * scl;
+        imag_ = std::fmaf(-a__, rat, b__) * scl;
+      } else if constexpr (std::is_same_v<T, double>) {
+        real_ = std::fma(b__, rat, a__) * scl;
+        imag_ = std::fma(-a__, rat, b__) * scl;
       } else {
-        auto rat = d__ / c__;
-        auto scl = T(1.0) / (c__ + d__ * rat);
         real_ = (a__ + b__ * rat) * scl;
         imag_ = (b__ - a__ * rat) * scl;
       }
+#else
+      real_ = (a__ + b__ * rat) * scl;
+      imag_ = (b__ - a__ * rat) * scl;
+#endif
     } else {
-      auto rat = c__ / d__;
-      auto scl = T(1.0) / (d__ + c__ * rat);
+#if __cplusplus >= 201703L
+      if constexpr (std::is_same_v<T, float>) {
+        real_ = std::fmaf(a__, rat, b__) * scl;
+        imag_ = std::fmaf(b__, rat, -a__) * scl;
+      } else if constexpr (std::is_same_v<T, double>) {
+        real_ = std::fma(a__, rat, b__) * scl;
+        imag_ = std::fma(b__, rat, -a__) * scl;
+      } else {
+        real_ = (a__ * rat + b__) * scl;
+        imag_ = (b__ * rat - a__) * scl;
+      }
+#else
       real_ = (a__ * rat + b__) * scl;
       imag_ = (b__ * rat - a__) * scl;
+#endif
     }
     auto q = ComplexType<T>(real_, imag_);
 
@@ -970,22 +1031,41 @@ struct InverseRemainderFunctor<
 #endif
 
     T real_, imag_;
+    auto rat = (abs_c >= abs_d) ? (d__ / c__) : (c__ / d__);
+    auto scl = (abs_c >= abs_d) ? (T(1.0) / (c__ + d__ * rat))
+                                : (T(1.0) / (d__ + c__ * rat));
     if (abs_c >= abs_d) {
-      if (abs_c == T(0) && abs_d == T(0)) {
-        /* divide by zeros should yield a complex inf or nan */
-        real_ = a__ / abs_c;
-        imag_ = b__ / abs_d;
+#if __cplusplus >= 201703L
+      if constexpr (std::is_same_v<T, float>) {
+        real_ = std::fmaf(b__, rat, a__) * scl;
+        imag_ = std::fmaf(-a__, rat, b__) * scl;
+      } else if constexpr (std::is_same_v<T, double>) {
+        real_ = std::fma(b__, rat, a__) * scl;
+        imag_ = std::fma(-a__, rat, b__) * scl;
       } else {
-        auto rat = d__ / c__;
-        auto scl = T(1.0) / (c__ + d__ * rat);
         real_ = (a__ + b__ * rat) * scl;
         imag_ = (b__ - a__ * rat) * scl;
       }
+#else
+      real_ = (a__ + b__ * rat) * scl;
+      imag_ = (b__ - a__ * rat) * scl;
+#endif
     } else {
-      auto rat = c__ / d__;
-      auto scl = T(1.0) / (d__ + c__ * rat);
+#if __cplusplus >= 201703L
+      if constexpr (std::is_same_v<T, float>) {
+        real_ = std::fmaf(a__, rat, b__) * scl;
+        imag_ = std::fmaf(b__, rat, -a__) * scl;
+      } else if constexpr (std::is_same_v<T, double>) {
+        real_ = std::fma(a__, rat, b__) * scl;
+        imag_ = std::fma(b__, rat, -a__) * scl;
+      } else {
+        real_ = (a__ * rat + b__) * scl;
+        imag_ = (b__ * rat - a__) * scl;
+      }
+#else
       real_ = (a__ * rat + b__) * scl;
       imag_ = (b__ * rat - a__) * scl;
+#endif
     }
     auto q = ComplexType<T>(real_, imag_);