add buffer transpose support for axis dim>4 test=develop (#8477)

zhenlin-work · web-flow · commit 588f22781ddd · 2022-02-17T23:47:24.000+08:00
diff --git a/lite/backends/opencl/cl_kernel/buffer/transpose_kernel.cl b/lite/backends/opencl/cl_kernel/buffer/transpose_kernel.cl
@@ -0,0 +1,34 @@
+/* Copyright (c) 2022 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#include <cl_common.h>
+
+__kernel void transpose_general_buffer(__global const CL_DTYPE* src,
+                                       __global CL_DTYPE* dst,
+                                       __global const int* out_idxs,
+                                       __private const int out_tensor_c,
+                                       __private const int out_tensor_h,
+                                       __private const int out_tensor_w,
+                                       __private const int out_tensor_hw) {
+  int hidx = get_global_id(0);   // [0, h) columns of dst
+  int widx = get_global_id(1);   // [0, w) rows of dst
+  int chidx = get_global_id(2);  // [0, ch) channels of dst
+
+  // idx = chidx * out_tensor_hw + hidx * out_tensor_w + widx
+  const int idx = mad((CL_DTYPE)chidx,
+                      (CL_DTYPE)out_tensor_hw,
+                      (CL_DTYPE)(mul24(hidx, out_tensor_w) + widx));
+
+  dst[out_idxs[idx]] = src[idx];
+}
diff --git a/lite/kernels/opencl/transpose_image_compute.cc b/lite/kernels/opencl/transpose_image_compute.cc
@@ -39,6 +39,43 @@ class TransposeComputeFloatImage
  public:
   using param_t = operators::TransposeParam;
 
+  std::vector<int> CalStrides(const DDim& dims) {
+    int dsize = dims.size();
+    std::vector<int> strides(dsize, 1);
+    for (int i = dsize - 2; i >= 0; i--) {
+      strides[i] = strides[i + 1] * dims[i + 1];
+    }
+    return strides;
+  }
+
+  std::vector<int> CalIndex(const std::vector<int>& strides, int offset) {
+    int dsize = strides.size();
+    std::vector<int> index(dsize, 0);
+    for (int i = 0; i < dsize; i++) {
+      index[i] = offset / strides[i];
+      offset %= strides[i];
+    }
+    return index;
+  }
+
+  std::vector<int> TransIndex(const std::vector<int>& in_index,
+                              const std::vector<int>& axis) {
+    std::vector<int> out_index(in_index.size(), 0);
+    for (int i = 0; i < axis.size(); i++) {
+      out_index[i] = in_index[axis[i]];
+    }
+    return out_index;
+  }
+
+  int CalOffset(const std::vector<int>& strides,
+                const std::vector<int>& index) {
+    int offset = 0;
+    for (int i = 0; i < index.size(); i++) {
+      offset += strides[i] * index[i];
+    }
+    return offset;
+  }
+
   void PrepareForRun() override {
     transpose_param_ = param_.get_mutable<param_t>();
     axis_ = transpose_param_->axis;
@@ -84,11 +121,57 @@ class TransposeComputeFloatImage
         LOG(FATAL) << "Unsupported axis permutation for current lite OpenCL "
                       "kernel! ";
       }
+    } else if (axis_.size() > 4) {
+      kernel_func_name_ = "transpose_general_buffer";
+      kernel_path_ = "buffer/transpose_kernel.cl";
     } else {
       LOG(FATAL) << "Unsupported axis permutation for current lite OpenCL "
                     "kernel! ";
     }
 
+    if (kernel_func_name_ == "transpose_general_buffer") {
+      build_options_ = "-DCL_DTYPE_float";
+      // create kernels of im2buf and buf2im
+      auto im2buf_kernels = KernelRegistry::Global().Create(
+          "layout", TARGET(kOpenCL), PRECISION(kAny), DATALAYOUT(kNCHW));
+      auto buf2im_kernels =
+          KernelRegistry::Global().Create("layout",
+                                          TARGET(kOpenCL),
+                                          PRECISION(kAny),
+                                          DATALAYOUT(kImageDefault));
+
+      im2buf_kernel_ = std::move(im2buf_kernels.front());
+      buf2im_kernel_ = std::move(buf2im_kernels.front());
+
+      // calc output shape
+      std::vector<int64_t> new_output_tensor_shape(x_tensor_dims_.size(), 0);
+      for (size_t i = 0; i < x_tensor_dims_.size(); i++) {
+        new_output_tensor_shape[i] = x_tensor_dims_[axis_[i]];
+      }
+      output->Resize(new_output_tensor_shape);
+      output_tensor_dims_ = output->dims();
+      // calc in/out index of transpose
+      std::vector<int> x_tensor_strides = CalStrides(x_tensor_dims_);
+      std::vector<int> output_tensor_strides = CalStrides(output_tensor_dims_);
+      std::vector<int> output_tensor_idxs_vec(output->dims().production());
+      for (size_t i = 0; i < x_tensor_dims_.production(); i++) {
+        std::vector<int> x_tensor_index = CalIndex(x_tensor_strides, i);
+        std::vector<int> out_tensor_index = TransIndex(x_tensor_index, axis_);
+        output_tensor_idxs_vec[i] =
+            CalOffset(output_tensor_strides, out_tensor_index);
+      }
+
+      // copy output_tensor_idxs_vec data to gpu
+      output_tensor_idxs_t_ = std::unique_ptr<Tensor>(new Tensor);
+      output_tensor_idxs_t_->Resize(output_tensor_dims_);
+      output_tensor_idxs_data_ =
+          output_tensor_idxs_t_->mutable_data<int, cl::Buffer>(TARGET(kOpenCL));
+      TargetWrapperCL::MemcpySync(output_tensor_idxs_data_,
+                                  output_tensor_idxs_vec.data(),
+                                  output_tensor_idxs_t_->memory_size(),
+                                  IoDirection::HtoD);
+    }
+
     if (output_tensor_dims_.size() == 4) {
       output_tensor_n_ = output_tensor_dims_[0];
       output_tensor_c_ = output_tensor_dims_[1];
@@ -126,14 +209,21 @@ class TransposeComputeFloatImage
 #endif
 
   void GetGlobalWorkSize() {
-    const std::vector<size_t>& ws =
-        DefaultGlobalWorkSize(output_tensor_dims_,
-                              DDim(std::vector<DDim::value_type>{
-                                  static_cast<int64_t>(output_image_w_),
-                                  static_cast<int64_t>(output_image_h_)}));
-    global_work_size_ = cl::NDRange{static_cast<cl::size_type>(ws[0]),
-                                    static_cast<cl::size_type>(ws[1]),
-                                    static_cast<cl::size_type>(ws[2])};
+    if (kernel_func_name_ == "transpose_general_buffer") {
+      global_work_size_ =
+          cl::NDRange{static_cast<cl::size_type>(output_tensor_h_),
+                      static_cast<cl::size_type>(output_tensor_w_),
+                      static_cast<cl::size_type>(output_tensor_c_)};
+    } else {
+      const std::vector<size_t>& ws =
+          DefaultGlobalWorkSize(output_tensor_dims_,
+                                DDim(std::vector<DDim::value_type>{
+                                    static_cast<int64_t>(output_image_w_),
+                                    static_cast<int64_t>(output_image_h_)}));
+      global_work_size_ = cl::NDRange{static_cast<cl::size_type>(ws[0]),
+                                      static_cast<cl::size_type>(ws[1]),
+                                      static_cast<cl::size_type>(ws[2])};
+    }
   }
 
   void Run() override {
@@ -144,30 +234,92 @@ class TransposeComputeFloatImage
     auto& context = ctx_->As<OpenCLContext>();
     auto kernel = kernel_;
     cl_int status;
-    status = kernel.setArg(0, *x_image);
-    CL_CHECK_FATAL(status);
-    status = kernel.setArg(1, *output_image);
-    CL_CHECK_FATAL(status);
-    status = kernel.setArg(2, output_tensor_c_);
-    CL_CHECK_FATAL(status);
-    status = kernel.setArg(3, output_tensor_h_);
-    CL_CHECK_FATAL(status);
-    status = kernel.setArg(4, output_tensor_w_);
-    CL_CHECK_FATAL(status);
-    status = kernel.setArg(5, x_tensor_w_);
-    CL_CHECK_FATAL(status);
-    status = kernel.setArg(6, x_tensor_h_);
-    CL_CHECK_FATAL(status);
-
-    GetGlobalWorkSize();
-    status = EnqueueNDRangeKernel(context,
-                                  kernel,
-                                  cl::NullRange,
-                                  global_work_size_,
-                                  cl::NullRange,
-                                  nullptr,
-                                  event_);
-    CL_CHECK_FATAL(status);
+    if (kernel_func_name_ == "transpose_general_buffer") {
+      // do image layout transform: image to buffer
+      // create and set param, context to kernel im2buf
+      operators::LayoutParam im2buf_param;
+      std::shared_ptr<lite::Tensor> im2buf_out_t(new lite::Tensor);
+      im2buf_out_t->Resize(x_tensor_dims_);
+      auto im2buf_out_t_buffer_p =
+          im2buf_out_t->mutable_data<float, cl::Buffer>(TARGET(kOpenCL));
+      im2buf_param.x = transpose_param_->x;
+      im2buf_param.y = im2buf_out_t.get();
+      auto s = im2buf_kernel_->op_type();
+      im2buf_kernel_->SetParam(im2buf_param);
+
+      std::unique_ptr<KernelContext> im2buf_ctx(new KernelContext);
+      context.CopySharedTo(&(im2buf_ctx->As<OpenCLContext>()));
+      im2buf_kernel_->SetContext(std::move(im2buf_ctx));
+      im2buf_kernel_->Launch();
+
+      // create and set param, context to kernel buf2im
+      std::shared_ptr<lite::Tensor> buf2im_in_t(new lite::Tensor);
+      buf2im_in_t->Resize(transpose_param_->output->dims());
+      auto buf2im_in_t_buffer_p =
+          buf2im_in_t->mutable_data<float, cl::Buffer>(TARGET(kOpenCL));
+      operators::LayoutParam buf2im_param;
+      buf2im_param.x = buf2im_in_t.get();
+      buf2im_param.y = transpose_param_->output;
+      buf2im_kernel_->SetParam(buf2im_param);
+
+      std::unique_ptr<KernelContext> buf2im_ctx(new KernelContext);
+      context.CopySharedTo(&(buf2im_ctx->As<OpenCLContext>()));
+      buf2im_kernel_->SetContext(std::move(buf2im_ctx));
+
+      // set kernel args
+      status = kernel.setArg(0, *im2buf_out_t_buffer_p);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(1, *buf2im_in_t_buffer_p);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(2, *output_tensor_idxs_data_);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(3, output_tensor_c_);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(4, output_tensor_h_);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(5, output_tensor_w_);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(6, output_tensor_h_ * output_tensor_w_);
+      CL_CHECK_FATAL(status);
+
+      GetGlobalWorkSize();
+      auto& context = ctx_->As<OpenCLContext>();
+      status = EnqueueNDRangeKernel(context,
+                                    kernel,
+                                    cl::NullRange,
+                                    global_work_size_,
+                                    cl::NullRange,
+                                    nullptr,
+                                    event_);
+      CL_CHECK_FATAL(status);
+      // run kernel: buffer->image
+      buf2im_kernel_->Launch();
+    } else {
+      status = kernel.setArg(0, *x_image);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(1, *output_image);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(2, output_tensor_c_);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(3, output_tensor_h_);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(4, output_tensor_w_);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(5, x_tensor_w_);
+      CL_CHECK_FATAL(status);
+      status = kernel.setArg(6, x_tensor_h_);
+      CL_CHECK_FATAL(status);
+
+      GetGlobalWorkSize();
+      status = EnqueueNDRangeKernel(context,
+                                    kernel,
+                                    cl::NullRange,
+                                    global_work_size_,
+                                    cl::NullRange,
+                                    nullptr,
+                                    event_);
+      CL_CHECK_FATAL(status);
+    }
   }
 
  private:
@@ -194,6 +346,10 @@ class TransposeComputeFloatImage
 
   cl::NDRange global_work_size_;
   cl::Kernel kernel_;
+
+  // transpose_general_buffer
+  std::unique_ptr<KernelBase> im2buf_kernel_;
+  std::unique_ptr<KernelBase> buf2im_kernel_;
 };
 
 }  // namespace opencl