fused_dropout: optimize code structure to facilitate reuse

zkh2016 · zkh2016 · commit 93e063864f56 · 2021-08-24T12:35:20.000Z
diff --git a/paddle/fluid/operators/fused/CMakeLists.txt b/paddle/fluid/operators/fused/CMakeLists.txt
@@ -74,6 +74,6 @@ if (WITH_GPU OR WITH_ROCM)
     # fused_dropout
     # only support CUDA
     if(NOT WITH_ROCM)
-        nv_test(test_fused_residual_dropout_bias SRCS fused_residual_dropout_bias_test.cu DEPS tensor op_registry elementwise_add_op dropout_op device_context generator)
+        nv_test(test_fused_residual_dropout_bias SRCS fused_residual_dropout_bias_test.cu DEPS tensor op_registry dropout_op device_context generator)
     endif()
 endif()
diff --git a/paddle/fluid/operators/fused/fused_dropout.h b/paddle/fluid/operators/fused/fused_dropout.h
@@ -66,5 +66,17 @@ struct alignas(sizeof(T) * VecSize) AlignedVector {
   T val[VecSize];
 };
 
+// reduce sum by a warp
+template <typename U>
+static __forceinline__ __device__ U WarpReduceSum(U val) {
+  unsigned mask = 0u;
+  CREATE_SHFL_MASK(mask, true);
+  const int warpSize = 32;
+  for (int offset = warpSize / 2; offset > 0; offset /= 2) {
+    val += paddle::platform::CudaShuffleDownSync(mask, val, offset);
+  }
+  return val;
+}
+
 }  // namespace operators
 }  // namespace paddle
diff --git a/paddle/fluid/operators/fused/fused_dropout_test.h b/paddle/fluid/operators/fused/fused_dropout_test.h
@@ -0,0 +1,121 @@
+/* Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#pragma once
+
+#include <random>
+#include <vector>
+
+#include "gtest/gtest.h"
+#include "paddle/fluid/framework/op_registry.h"
+#include "paddle/fluid/framework/operator.h"
+#include "paddle/fluid/framework/program_desc.h"
+#include "paddle/fluid/framework/tensor_util.h"
+#include "paddle/fluid/operators/math/math_function.h"
+#include "paddle/fluid/string/printf.h"
+
+namespace framework = paddle::framework;
+namespace platform = paddle::platform;
+
+USE_OP(dropout);
+
+/**
+ * @brief call paddle dropout op
+ */
+template <typename T>
+void Dropout(const T *x, const framework::DDim &x_dim, T *out,
+             std::vector<uint8_t> *mask, const platform::CUDADeviceContext &ctx,
+             uint64_t seed, float dropout_prob, bool is_upscale_in_train,
+             bool is_test) {
+  framework::Scope scope;
+  auto var_x = scope.Var("X");
+  auto tensor_x = var_x->GetMutable<framework::LoDTensor>();
+  tensor_x->Resize(x_dim);
+  tensor_x->mutable_data<T>(ctx.GetPlace());
+  cudaMemcpy(tensor_x->data<T>(), x, x_dim[0] * x_dim[1] * sizeof(T),
+             cudaMemcpyHostToDevice);
+
+  auto var_out = scope.Var("Out");
+  auto tensor_out = var_out->GetMutable<framework::LoDTensor>();
+
+  auto var_mask = scope.Var("Mask");
+  auto tensor_mask = var_mask->GetMutable<framework::LoDTensor>();
+
+  framework::AttributeMap attrs;
+  attrs.insert({"fix_seed", 1});
+  attrs.insert({"seed", static_cast<int>(seed)});
+  attrs.insert({"dropout_prob", dropout_prob});
+  if (is_upscale_in_train) {
+    attrs.insert({"dropout_implementation", std::string("upscale_in_train")});
+  }
+  if (is_test) {
+    attrs.insert({"is_test", 1});
+  }
+
+  auto op = framework::OpRegistry::CreateOp(
+      "dropout", {{"X", {"X"}}}, {{"Out", {"Out"}}, {"Mask", {"Mask"}}}, attrs);
+  op->Run(scope, ctx.GetPlace());
+  cudaMemcpy(out, tensor_out->data<T>(), x_dim[0] * x_dim[1] * sizeof(T),
+             cudaMemcpyDeviceToHost);
+  if (!is_test) {
+    cudaMemcpy((*mask).data(), tensor_mask->data<uint8_t>(),
+               x_dim[0] * x_dim[1] * sizeof(uint8_t), cudaMemcpyDeviceToHost);
+  }
+  ctx.Wait();
+}
+
+/**
+ * @brief call paddle dropout_grad op
+ */
+template <typename T>
+void DropoutGrad(T *dx, const framework::DDim &x_dim, const T *dout,
+                 const uint8_t *mask, const platform::CUDADeviceContext &ctx,
+                 float dropout_prob, bool is_upscale_in_train) {
+  framework::Scope scope;
+  const size_t n = x_dim[0] * x_dim[1];
+  auto var_out = scope.Var("DOut");
+  auto tensor_out = var_out->GetMutable<framework::LoDTensor>();
+  tensor_out->Resize(x_dim);
+  tensor_out->mutable_data<T>(ctx.GetPlace());
+  cudaMemcpy(tensor_out->data<T>(), dout, n * sizeof(T),
+             cudaMemcpyHostToDevice);
+
+  auto var_mask = scope.Var("Mask");
+  auto tensor_mask = var_mask->GetMutable<framework::LoDTensor>();
+  tensor_mask->Resize(x_dim);
+  tensor_mask->mutable_data<uint8_t>(ctx.GetPlace());
+  cudaMemcpy(tensor_mask->data<uint8_t>(), mask, n * sizeof(uint8_t),
+             cudaMemcpyHostToDevice);
+
+  auto var_dx = scope.Var("DX");
+  auto tensor_dx = var_dx->GetMutable<framework::LoDTensor>();
+
+  framework::AttributeMap attrs;
+  attrs.insert({"dropout_prob", dropout_prob});
+  attrs.insert({"is_test", 0});
+  if (is_upscale_in_train) {
+    attrs.insert({"dropout_implementation", std::string("upscale_in_train")});
+  } else {
+    attrs.insert({"dropout_implementation", std::string("downgrade_in_infer")});
+  }
+
+  auto op = framework::OpRegistry::CreateOp(
+      "dropout_grad", {{"Out@GRAD", {"DOut"}}, {"Mask", {"Mask"}}},
+      {{"X@GRAD", {"DX"}}}, attrs);
+  op->Run(scope, ctx.GetPlace());
+
+  cudaMemcpy(dx, tensor_dx->data<T>(), x_dim[0] * x_dim[1] * sizeof(T),
+             cudaMemcpyDeviceToHost);
+  ctx.Wait();
+}
diff --git a/paddle/fluid/operators/fused/fused_residual_dropout_bias.h b/paddle/fluid/operators/fused/fused_residual_dropout_bias.h
@@ -118,9 +118,8 @@ __global__ void FusedResidualDropoutBiasIsTest(const size_t rows,
 
   using LoadT = AlignedVector<T, VecSize>;
 
-  const int tmp_cols = cols / VecSize * VecSize;
   for (int r = row_id; r < rows; r += blockDim.y * gridDim.y) {
-    for (int i = col_id * VecSize; i < tmp_cols;
+    for (int i = col_id * VecSize; i < cols;
          i += blockDim.x * gridDim.x * VecSize) {
       T src_vec[VecSize];
       T residual_vec[VecSize];
@@ -249,17 +248,6 @@ __global__ void FusedResidualDropoutGradVec(const T *dout, const MaskType *mask,
   }
 }
 
-template <typename U>
-static __forceinline__ __device__ U WarpReduceSum(U val) {
-  unsigned mask = 0u;
-  CREATE_SHFL_MASK(mask, true);
-  const int warpSize = 32;
-  for (int offset = warpSize / 2; offset > 0; offset /= 2) {
-    val += paddle::platform::CudaShuffleDownSync(mask, val, offset);
-  }
-  return val;
-}
-
 /**
  * blocks(128 * 8)
  * 1. calculate the dx and reduce total rows to 128 rows
@@ -285,7 +273,6 @@ __global__ void FusedResidualDropoutBiasGradVec(
       T dx_vec[VecSize];
       LoadT *out_value = reinterpret_cast<LoadT *>(&out_vec);
       MaskLoadT *mask_value = reinterpret_cast<MaskLoadT *>(&mask_vec);
-      LoadT *dx_value = reinterpret_cast<LoadT *>(&dx_vec);
       *out_value = *reinterpret_cast<const LoadT *>(&dout[index]);
       *mask_value = *reinterpret_cast<const MaskLoadT *>(&mask[index]);
 
diff --git a/paddle/fluid/operators/fused/fused_residual_dropout_bias_test.cu b/paddle/fluid/operators/fused/fused_residual_dropout_bias_test.cu
@@ -17,20 +17,12 @@ limitations under the License. */
 #include <random>
 #include <vector>
 
-#include "gtest/gtest.h"
-#include "paddle/fluid/framework/op_registry.h"
-#include "paddle/fluid/framework/operator.h"
-#include "paddle/fluid/framework/program_desc.h"
-#include "paddle/fluid/framework/tensor_util.h"
+#include "paddle/fluid/operators/fused/fused_dropout_test.h"
 #include "paddle/fluid/operators/fused/fused_residual_dropout_bias.h"
-#include "paddle/fluid/operators/math/math_function.h"
-#include "paddle/fluid/string/printf.h"
 
 namespace framework = paddle::framework;
 namespace platform = paddle::platform;
 
-USE_OP(dropout);
-
 /**
  * @brief the unittest of fused_residual_dropout_bias
  * 1. random input data
@@ -39,96 +31,6 @@ USE_OP(dropout);
  * 4. compare ther base result and fused result
  */
 
-/**
- * @brief call paddle dropout op
- */
-template <typename T>
-void Dropout(const T *x, const framework::DDim &x_dim, T *out,
-             std::vector<uint8_t> *mask, const platform::CUDADeviceContext &ctx,
-             uint64_t seed, float dropout_prob, bool is_upscale_in_train,
-             bool is_test) {
-  framework::Scope scope;
-  auto var_x = scope.Var("X");
-  auto tensor_x = var_x->GetMutable<framework::LoDTensor>();
-  tensor_x->Resize(x_dim);
-  tensor_x->mutable_data<T>(ctx.GetPlace());
-  cudaMemcpy(tensor_x->data<T>(), x, x_dim[0] * x_dim[1] * sizeof(T),
-             cudaMemcpyHostToDevice);
-
-  auto var_out = scope.Var("Out");
-  auto tensor_out = var_out->GetMutable<framework::LoDTensor>();
-
-  auto var_mask = scope.Var("Mask");
-  auto tensor_mask = var_mask->GetMutable<framework::LoDTensor>();
-
-  framework::AttributeMap attrs;
-  attrs.insert({"fix_seed", 1});
-  attrs.insert({"seed", static_cast<int>(seed)});
-  attrs.insert({"dropout_prob", dropout_prob});
-  if (is_upscale_in_train) {
-    attrs.insert({"dropout_implementation", std::string("upscale_in_train")});
-  }
-  if (is_test) {
-    attrs.insert({"is_test", 1});
-  }
-
-  auto op = framework::OpRegistry::CreateOp(
-      "dropout", {{"X", {"X"}}}, {{"Out", {"Out"}}, {"Mask", {"Mask"}}}, attrs);
-  op->Run(scope, ctx.GetPlace());
-  cudaMemcpy(out, tensor_out->data<T>(), x_dim[0] * x_dim[1] * sizeof(T),
-             cudaMemcpyDeviceToHost);
-  if (!is_test) {
-    cudaMemcpy((*mask).data(), tensor_mask->data<uint8_t>(),
-               x_dim[0] * x_dim[1] * sizeof(uint8_t), cudaMemcpyDeviceToHost);
-  }
-  ctx.Wait();
-}
-
-/**
- * @brief call paddle dropout_grad op
- */
-template <typename T>
-void DropoutGrad(T *dx, const framework::DDim &x_dim, const T *dout,
-                 const uint8_t *mask, const platform::CUDADeviceContext &ctx,
-                 float dropout_prob, bool is_upscale_in_train) {
-  framework::Scope scope;
-  const size_t n = x_dim[0] * x_dim[1];
-  auto var_out = scope.Var("DOut");
-  auto tensor_out = var_out->GetMutable<framework::LoDTensor>();
-  tensor_out->Resize(x_dim);
-  tensor_out->mutable_data<T>(ctx.GetPlace());
-  cudaMemcpy(tensor_out->data<T>(), dout, n * sizeof(T),
-             cudaMemcpyHostToDevice);
-
-  auto var_mask = scope.Var("Mask");
-  auto tensor_mask = var_mask->GetMutable<framework::LoDTensor>();
-  tensor_mask->Resize(x_dim);
-  tensor_mask->mutable_data<uint8_t>(ctx.GetPlace());
-  cudaMemcpy(tensor_mask->data<uint8_t>(), mask, n * sizeof(uint8_t),
-             cudaMemcpyHostToDevice);
-
-  auto var_dx = scope.Var("DX");
-  auto tensor_dx = var_dx->GetMutable<framework::LoDTensor>();
-
-  framework::AttributeMap attrs;
-  attrs.insert({"dropout_prob", dropout_prob});
-  attrs.insert({"is_test", 0});
-  if (is_upscale_in_train) {
-    attrs.insert({"dropout_implementation", std::string("upscale_in_train")});
-  } else {
-    attrs.insert({"dropout_implementation", std::string("downgrade_in_infer")});
-  }
-
-  auto op = framework::OpRegistry::CreateOp(
-      "dropout_grad", {{"Out@GRAD", {"DOut"}}, {"Mask", {"Mask"}}},
-      {{"X@GRAD", {"DX"}}}, attrs);
-  op->Run(scope, ctx.GetPlace());
-
-  cudaMemcpy(dx, tensor_dx->data<T>(), x_dim[0] * x_dim[1] * sizeof(T),
-             cudaMemcpyDeviceToHost);
-  ctx.Wait();
-}
-
 template <typename T>
 struct TestFusedResidualDropoutBias {
   uint32_t _rows;