[Decoupling] Decouple language.math extension for ascend

liuyunqi20 · liuyunqi20 · commit 18096c752289 · 2025-11-25T15:08:05.000+08:00
diff --git a/python/triton/testing.py b/python/triton/testing.py
@@ -523,25 +523,6 @@ def get_max_simd_tflops(dtype, clock_rate, device=None):
     tensor_descriptor_type,
 )
 from .language.standard_ext import flip, sigmoid, softmax, isfinited, finitef, rint, atan2
-from .language.math_ext import (
-    umulhi,
-    exp,
-    exp2,
-    log,
-    log2,
-    cos,
-    sin,
-    sqrt,
-    sqrt_rn,
-    rsqrt,
-    div_rn,
-    erf,
-    tanh,
-    floor,
-    ceil,
-    _check_dtype,
-    fma,
-)
 from . import language
 
 language.flip = flip
@@ -550,75 +531,40 @@ def get_max_simd_tflops(dtype, clock_rate, device=None):
 language.tensor_descriptor = tensor_descriptor
 language.tensor_descriptor_type = tensor_descriptor_type
 
-language.umulhi = umulhi
-language.exp = exp
-language.exp2 = exp2
-language.log = log
-language.log2 = log2
-language.cos = cos
-language.sin = sin
-language.sqrt = sqrt
-language.sqrt_rn = sqrt_rn
-language.rsqrt = rsqrt
-language.div_rn = div_rn
-language.erf = erf
-language.tanh = tanh
-language.floor = floor
-language.ceil = ceil
-language.fma = fma
-language.math.umulhi = umulhi
-language.math.exp = exp
-language.math.exp2 = exp2
-language.math.log = log
-language.math.log2 = log2
-language.math.cos = cos
-language.math.sin = sin
-language.math.sqrt = sqrt
-language.math.sqrt_rn = sqrt_rn
-language.math.rsqrt = rsqrt
-language.math.div_rn = div_rn
-language.math.erf = erf
-language.math.tanh = tanh
-language.math.floor = floor
-language.math.ceil = ceil
-language.math._check_dtype = _check_dtype
-language.math.fma = fma
-language.math.isnan = language.extra.ascend.libdevice.isnan
-language.math.isinf = language.extra.ascend.libdevice.isinf
-language.math.reciprocal = language.extra.ascend.libdevice.reciprocal
-language.math.log1p = language.extra.ascend.libdevice.log1p
-language.math.relu = language.extra.ascend.libdevice.relu
-language.math.tan = language.extra.ascend.libdevice.tan
-language.math.atan = language.extra.ascend.libdevice.atan
+language.umulhi = language.extra.ascend.libdevice.umulhi
+language.exp = language.extra.ascend.libdevice.exp
+language.exp2 = language.extra.ascend.libdevice.exp2
+language.log = language.extra.ascend.libdevice.log
+language.log2 = language.extra.ascend.libdevice.log2
+language.cos = language.extra.ascend.libdevice.cos
+language.sin = language.extra.ascend.libdevice.sin
+language.sqrt = language.extra.ascend.libdevice.sqrt
+language.sqrt_rn = language.extra.ascend.libdevice.sqrt_rn
+language.rsqrt = language.extra.ascend.libdevice.rsqrt
+language.div_rn = language.extra.ascend.libdevice.div_rn
+language.erf = language.extra.ascend.libdevice.erf
+language.tanh = language.extra.ascend.libdevice.tanh
+language.floor = language.extra.ascend.libdevice.floor
+language.ceil = language.extra.ascend.libdevice.ceil
+language.fma = language.extra.ascend.libdevice.fma
+language.math.umulhi = language.extra.ascend.libdevice.umulhi
+language.math.exp = language.extra.ascend.libdevice.exp
+language.math.exp2 = language.extra.ascend.libdevice.exp2
+language.math.log = language.extra.ascend.libdevice.log
+language.math.log2 = language.extra.ascend.libdevice.log2
+language.math.cos = language.extra.ascend.libdevice.cos
+language.math.sin = language.extra.ascend.libdevice.sin
+language.math.sqrt = language.extra.ascend.libdevice.sqrt
+language.math.sqrt_rn = language.extra.ascend.libdevice.sqrt_rn
+language.math.rsqrt = language.extra.ascend.libdevice.rsqrt
+language.math.div_rn = language.extra.ascend.libdevice.div_rn
+language.math.erf = language.extra.ascend.libdevice.erf
 language.math.tanh = language.extra.ascend.libdevice.tanh
-language.math.ilogb = language.extra.ascend.libdevice.ilogb
-language.math.ldexp = language.extra.ascend.libdevice.ldexp
-language.math.pow = language.extra.ascend.libdevice.pow
-language.math.flip = language.extra.ascend.libdevice.flip
-language.math.atan2 = language.extra.ascend.libdevice.atan2
-language.math.div_rz = language.extra.ascend.libdevice.div_rz
-language.math.fmod = language.extra.ascend.libdevice.fmod
-language.math.trunc = language.extra.ascend.libdevice.trunc
-language.math.round = language.extra.ascend.libdevice.round
+language.math.floor = language.extra.ascend.libdevice.floor
+language.math.ceil = language.extra.ascend.libdevice.ceil
+language.math._check_dtype = language.extra.ascend.libdevice._check_dtype
+language.math.fma = language.extra.ascend.libdevice.fma
 language.math.finitef = finitef
 language.math.isfinited = isfinited
 language.math.rint = rint
 language.math.atan2 = atan2
-language.extra.ascend.libdevice.umulhi = language.math.umulhi
-language.extra.ascend.libdevice.exp = language.math.exp
-language.extra.ascend.libdevice.exp2 = language.math.exp2
-language.extra.ascend.libdevice.log = language.math.log
-language.extra.ascend.libdevice.log2 = language.math.log2
-language.extra.ascend.libdevice.cos = language.math.cos
-language.extra.ascend.libdevice.sin = language.math.sin
-language.extra.ascend.libdevice.sqrt = language.math.sqrt
-language.extra.ascend.libdevice.sqrt_rn = language.math.sqrt_rn
-language.extra.ascend.libdevice.rsqrt = language.math.rsqrt
-language.extra.ascend.libdevice.div_rn = language.math.div_rn
-language.extra.ascend.libdevice.erf = language.math.erf
-language.extra.ascend.libdevice.tanh = language.math.tanh
-language.extra.ascend.libdevice.floor = language.math.floor
-language.extra.ascend.libdevice.ceil = language.math.ceil
-language.extra.ascend.libdevice.fdiv = language.math.fdiv
-language.extra.ascend.libdevice.fma = language.math.fma
-language.extra.ascend.libdevice.abs = language.math.abs
diff --git a/third_party/ascend/language/ascend/libdevice.py b/third_party/ascend/language/ascend/libdevice.py
@@ -1,4 +1,177 @@
+from functools import wraps
+from typing import List
 from triton.language import core
+from triton.language.math import _add_math_1arg_docstr, _add_math_2arg_docstr, _add_math_3arg_docstr
+from triton.language import semantic
+
+T = core.TypeVar('T')
+
+
+def _check_dtype(dtypes: List[str]) -> T:
+    """
+    We're following libdevice's convention to check accepted data types for math functions.
+    It is not a good practice to support all data types as accelerators/GPUs don't support
+    many float16 and bfloat16 math operations.
+    We should let the users know that they are using and invoke explicit cast to convert
+    the data type to the supported one.
+    """
+
+    def wrapper(fn):
+
+        @wraps(fn)
+        def check(*args, **kwargs):
+            # concatenate args and kwargs
+            all_args = list(args) + list(kwargs.values())
+            for arg in [a for a in all_args if isinstance(a, core.tensor)]:
+                arg_type = arg.type.scalar.name
+                if hasattr(arg, 'was_bool_to_int8') and arg.was_bool_to_int8:
+                    # In Triton, int1 maps to the boolean type
+                    arg_type = 'int1'
+                if arg_type not in dtypes:
+                    raise ValueError(f"Expected dtype {dtypes} but got {arg_type}")
+            return fn(*args, **kwargs)
+
+        return check
+
+    return wrapper
+
+
+@core.extern
+@_check_dtype(dtypes=["int32", "uint32"])
+@_add_math_2arg_docstr("most significant N bits of the 2N-bit product")
+def umulhi(x, y, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    y = semantic.to_tensor(y, _builder)
+    x, y = core.binary_op_type_legalization(x, y, _builder)
+    return core.tensor(_builder.create_umulhi(x.handle, y.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("exponential")
+@core._tensor_member_fn
+def exp(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_exp(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("exponential (base 2)")
+@core._tensor_member_fn
+def exp2(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_exp2(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("natural logarithm")
+@core._tensor_member_fn
+def log(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_log(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("logarithm (base 2)")
+@core._tensor_member_fn
+def log2(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_log2(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("cosine")
+@core._tensor_member_fn
+def cos(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_cos(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("sine")
+@core._tensor_member_fn
+def sin(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_sin(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("fast square root")
+@core._tensor_member_fn
+def sqrt(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_sqrt(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("precise square root (rounding to nearest wrt the IEEE standard)")
+@core._tensor_member_fn
+def sqrt_rn(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_precise_sqrt(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("inverse square root")
+@core._tensor_member_fn
+def rsqrt(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_rsqrt(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_2arg_docstr("precise division (rounding to nearest wrt the IEEE standard)")
+def div_rn(x, y, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    y = semantic.to_tensor(y, _builder)
+    x, y = core.binary_op_type_legalization(x, y, _builder)
+    return core.tensor(_builder.create_precise_divf(x.handle, y.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("error function")
+@core._tensor_member_fn
+def erf(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_erf(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("error function")
+@core._tensor_member_fn
+def tanh(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_tanh(x.handle), x.type)
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("floor")
+@core._tensor_member_fn
+def floor(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_floor(x.handle), x.type)
+
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_1arg_docstr("ceil")
+@core._tensor_member_fn
+def ceil(x, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    return core.tensor(_builder.create_ceil(x.handle), x.type)
+
+
+@core.extern
+@_check_dtype(dtypes=["bf16", "fp16", "fp32"])
+@_add_math_3arg_docstr("fused multiply-add")
+def fma(x, y, z, _builder=None):
+    x = semantic.to_tensor(x, _builder)
+    y = semantic.to_tensor(y, _builder)
+    z = semantic.to_tensor(z, _builder)
+    x, y = core.binary_op_type_legalization(x, y, _builder)
+    z, x = core.binary_op_type_legalization(z, x, _builder)
+    z, y = core.binary_op_type_legalization(z, y, _builder)
+    return core.tensor(_builder.create_fma(x.handle, y.handle, z.handle), x.type)
+
 
 @core.extern
 def reciprocal(arg0, _builder=None):
@@ -151,5 +324,5 @@ def trunc(arg0, _builder=None):
 def round(arg0, _builder=None):
     return core.extern_elementwise(
         "", "", [arg0], {
-            (core.dtype("fp32"), ): ("__hmf_roundf", core.dtype("fp32")),            
+            (core.dtype("fp32"), ): ("__hmf_roundf", core.dtype("fp32")),
         }, is_pure=True, _builder=_builder)