Remove const_cast

umiswing · umiswing · commit 61c5fb1ff34d · 2023-08-04T01:58:43.000Z
diff --git a/paddle/phi/kernels/flash_attn_grad_kernel.h b/paddle/phi/kernels/flash_attn_grad_kernel.h
@@ -30,11 +30,11 @@ void FlashAttnUnpaddedGradKernel(const Context& ctx,
                                  const DenseTensor& softmax_lse,
                                  const DenseTensor& seed_offset,
                                  const DenseTensor& dout,
-                                 const int64_t max_seqlen_q,
-                                 const int64_t max_seqlen_k,
-                                 const float scale,
-                                 const float dropout,
-                                 const bool causal,
+                                 int64_t max_seqlen_q,
+                                 int64_t max_seqlen_k,
+                                 float scale,
+                                 float dropout,
+                                 bool causal,
                                  DenseTensor* dq,
                                  DenseTensor* dk,
                                  DenseTensor* dv);
@@ -48,8 +48,8 @@ void FlashAttnGradKernel(const Context& ctx,
                          const DenseTensor& softmax_lse,
                          const DenseTensor& seed_offset,
                          const DenseTensor& dout,
-                         const float dropout,
-                         const bool causal,
+                         float dropout,
+                         bool causal,
                          DenseTensor* dq,
                          DenseTensor* dk,
                          DenseTensor* dv);
diff --git a/paddle/phi/kernels/flash_attn_kernel.h b/paddle/phi/kernels/flash_attn_kernel.h
@@ -28,13 +28,13 @@ void FlashAttnUnpaddedKernel(
     const DenseTensor& cu_seqlens_q,
     const DenseTensor& cu_seqlens_k,
     const paddle::optional<DenseTensor>& fixed_seed_offset,
-    const int64_t max_seqlen_q,
-    const int64_t max_seqlen_k,
-    const float scale,
+    int64_t max_seqlen_q,
+    int64_t max_seqlen_k,
+    float scale,
     float dropout,
-    const bool causal,
-    const bool return_softmax,
-    const bool is_test,
+    bool causal,
+    bool return_softmax,
+    bool is_test,
     const std::string& rng_name,
     DenseTensor* out,
     DenseTensor* softmax,
@@ -48,9 +48,9 @@ void FlashAttnKernel(const Context& ctx,
                      const DenseTensor& v,
                      const paddle::optional<DenseTensor>& fixed_seed_offset,
                      float dropout,
-                     const bool causal,
-                     const bool return_softmax,
-                     const bool is_test,
+                     bool causal,
+                     bool return_softmax,
+                     bool is_test,
                      const std::string& rng_name,
                      DenseTensor* out,
                      DenseTensor* softmax,
diff --git a/paddle/phi/kernels/gpu/flash_attn_grad_kernel.cu b/paddle/phi/kernels/gpu/flash_attn_grad_kernel.cu
@@ -42,11 +42,11 @@ void FlashAttnUnpaddedGradKernel(const Context& ctx,
                                  const DenseTensor& softmax_lse,
                                  const DenseTensor& seed_offset,
                                  const DenseTensor& dout,
-                                 const int64_t max_seqlen_q,
-                                 const int64_t max_seqlen_k,
-                                 const float scale,
-                                 const float dropout,
-                                 const bool causal,
+                                 int64_t max_seqlen_q,
+                                 int64_t max_seqlen_k,
+                                 float scale,
+                                 float dropout,
+                                 bool causal,
                                  DenseTensor* dq,
                                  DenseTensor* dk,
                                  DenseTensor* dv) {
@@ -94,36 +94,36 @@ void FlashAttnUnpaddedGradKernel(const Context& ctx,
   DenseTensor dq_accum = Empty<float>(
       ctx, {batch_size, num_heads, seqlen_q_rounded, head_size_rounded});
 
-  const bool succ = phi::dynload::flash_attn_varlen_bwd(
-      const_cast<void*>(dout.data()),
-      const_cast<void*>(q.data()),
-      const_cast<void*>(k.data()),
-      const_cast<void*>(v.data()),
-      const_cast<void*>(out.data()),
-      softmax_d.data(),
-      const_cast<void*>(softmax_lse.data()),
-      dq->data(),
-      dk->data(),
-      dv->data(),
-      dq_accum.data(),
-      const_cast<int32_t*>(cu_seqlens_q.data<int32_t>()),
-      const_cast<int32_t*>(cu_seqlens_k.data<int32_t>()),
-      batch_size,
-      max_seqlen_q,
-      max_seqlen_k,
-      seqlen_q_rounded,
-      seqlen_k_rounded,
-      num_heads,
-      num_heads_k,
-      head_size,
-      head_size_rounded,
-      dropout,
-      scale,
-      causal,
-      is_bf16,
-      stream,
-      seed,
-      offset);
+  const bool succ =
+      phi::dynload::flash_attn_varlen_bwd(dout.data(),
+                                          q.data(),
+                                          k.data(),
+                                          v.data(),
+                                          out.data(),
+                                          softmax_d.data(),
+                                          softmax_lse.data(),
+                                          dq->data(),
+                                          dk->data(),
+                                          dv->data(),
+                                          dq_accum.data(),
+                                          cu_seqlens_q.data<int32_t>(),
+                                          cu_seqlens_k.data<int32_t>(),
+                                          batch_size,
+                                          max_seqlen_q,
+                                          max_seqlen_k,
+                                          seqlen_q_rounded,
+                                          seqlen_k_rounded,
+                                          num_heads,
+                                          num_heads_k,
+                                          head_size,
+                                          head_size_rounded,
+                                          dropout,
+                                          scale,
+                                          causal,
+                                          is_bf16,
+                                          stream,
+                                          seed,
+                                          offset);
 
   if (!succ) {
     PADDLE_THROW(phi::errors::External(phi::dynload::flash_attn_error()));
@@ -141,8 +141,8 @@ void FlashAttnGradKernel(const Context& ctx,
                          const DenseTensor& softmax_lse,
                          const DenseTensor& seed_offset,
                          const DenseTensor& dout,
-                         const float dropout,
-                         const bool causal,
+                         float dropout,
+                         bool causal,
                          DenseTensor* dq,
                          DenseTensor* dk,
                          DenseTensor* dv) {
@@ -193,34 +193,33 @@ void FlashAttnGradKernel(const Context& ctx,
 
   VLOG(4) << "FlashAttn bwd seed: " << seed << ", offset: " << offset;
 
-  const bool succ =
-      phi::dynload::flash_attn_bwd(const_cast<void*>(dout.data()),
-                                   const_cast<void*>(q.data()),
-                                   const_cast<void*>(k.data()),
-                                   const_cast<void*>(v.data()),
-                                   const_cast<void*>(out.data()),
-                                   softmax_d.data(),
-                                   const_cast<void*>(softmax_lse.data()),
-                                   dq->data(),
-                                   dk->data(),
-                                   dv->data(),
-                                   dq_accum.data(),
-                                   batch_size,
-                                   seqlen_q,
-                                   seqlen_k,
-                                   seqlen_q_rounded,
-                                   seqlen_k_rounded,
-                                   num_heads,
-                                   num_heads_k,
-                                   head_size,
-                                   head_size_rounded,
-                                   dropout,
-                                   scale,
-                                   causal,
-                                   is_bf16,
-                                   stream,
-                                   seed,
-                                   offset);
+  const bool succ = phi::dynload::flash_attn_bwd(dout.data(),
+                                                 q.data(),
+                                                 k.data(),
+                                                 v.data(),
+                                                 out.data(),
+                                                 softmax_d.data(),
+                                                 softmax_lse.data(),
+                                                 dq->data(),
+                                                 dk->data(),
+                                                 dv->data(),
+                                                 dq_accum.data(),
+                                                 batch_size,
+                                                 seqlen_q,
+                                                 seqlen_k,
+                                                 seqlen_q_rounded,
+                                                 seqlen_k_rounded,
+                                                 num_heads,
+                                                 num_heads_k,
+                                                 head_size,
+                                                 head_size_rounded,
+                                                 dropout,
+                                                 scale,
+                                                 causal,
+                                                 is_bf16,
+                                                 stream,
+                                                 seed,
+                                                 offset);
 
   if (!succ) {
     PADDLE_THROW(phi::errors::External(phi::dynload::flash_attn_error()));
diff --git a/paddle/phi/kernels/gpu/flash_attn_kernel.cu b/paddle/phi/kernels/gpu/flash_attn_kernel.cu
@@ -42,13 +42,13 @@ void FlashAttnUnpaddedKernel(
     const DenseTensor& cu_seqlens_q,
     const DenseTensor& cu_seqlens_k,
     const paddle::optional<DenseTensor>& fixed_seed_offset,
-    const int64_t max_seqlen_q,
-    const int64_t max_seqlen_k,
-    const float scale,
+    int64_t max_seqlen_q,
+    int64_t max_seqlen_k,
+    float scale,
     float dropout,
-    const bool causal,
-    const bool return_softmax,
-    const bool is_test,
+    bool causal,
+    bool return_softmax,
+    bool is_test,
     const std::string& rng_name,
     DenseTensor* out,
     DenseTensor* softmax,
@@ -129,12 +129,12 @@ void FlashAttnUnpaddedKernel(
   }
 
   const bool succ = phi::dynload::flash_attn_varlen_fwd(
-      const_cast<void*>(q.data()),
-      const_cast<void*>(k.data()),
-      const_cast<void*>(v.data()),
+      q.data(),
+      k.data(),
+      v.data(),
       out->data(),
-      const_cast<void*>(cu_seqlens_q.data()),
-      const_cast<void*>(cu_seqlens_k.data()),
+      cu_seqlens_q.data<int32_t>(),
+      cu_seqlens_k.data<int32_t>(),
       return_softmax ? softmax->data() : nullptr,
       softmax_lse->data(),
       batch_size,
@@ -169,9 +169,9 @@ void FlashAttnKernel(const Context& ctx,
                      const DenseTensor& v,
                      const paddle::optional<DenseTensor>& fixed_seed_offset,
                      float dropout,
-                     const bool causal,
-                     const bool return_softmax,
-                     const bool is_test,
+                     bool causal,
+                     bool return_softmax,
+                     bool is_test,
                      const std::string& rng_name,
                      DenseTensor* out,
                      DenseTensor* softmax,
@@ -253,9 +253,9 @@ void FlashAttnKernel(const Context& ctx,
   }
 
   bool succ =
-      phi::dynload::flash_attn_fwd(const_cast<void*>(q.data()),
-                                   const_cast<void*>(k.data()),
-                                   const_cast<void*>(v.data()),
+      phi::dynload::flash_attn_fwd(q.data(),
+                                   k.data(),
+                                   v.data(),
                                    out->data(),
                                    return_softmax ? softmax->data() : nullptr,
                                    softmax_lse->data(),
diff --git a/third_party/flashattn b/third_party/flashattn
@@ -1 +1 @@
-Subproject commit 97200f4cf07f295e7def044561f34e468c083da1
+Subproject commit b6f02d219a2286fc92e430703fa4c64f45f70ecc