PaddlePaddle · ronny1996 · Aug 24, 2021 · Jul 9, 2021 · Jul 13, 2021 · Jul 15, 2021
diff --git a/paddle/fluid/operators/conv_op_npu.cc b/paddle/fluid/operators/conv_op_npu.cc
@@ -126,6 +126,169 @@ class DepthwiseConvNPUKernel : public framework::OpKernel<T> {
   }
 };
 
+template <typename T>
+class NPUConvOpKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& ctx) const override {
+    auto& dev_ctx = ctx.template device_context<platform::NPUDeviceContext>();
+    const Tensor* input = ctx.Input<Tensor>("Input");
+    auto* filter = ctx.Input<Tensor>("Filter");
+    auto* output = ctx.Output<Tensor>("Output");
+    output->mutable_data<T>(ctx.GetPlace());
+    const std::vector<int> strides = ctx.Attr<std::vector<int>>("strides");
+    std::vector<int> paddings = ctx.Attr<std::vector<int>>("paddings");
+    std::vector<int> dilations = ctx.Attr<std::vector<int>>("dilations");
+    int groups = ctx.Attr<int>("groups");
+    const std::string padding_algorithm =
+        ctx.Attr<std::string>("padding_algorithm");
+    const std::string data_format = ctx.Attr<std::string>("data_format");
+
+    const bool channel_last = data_format == "NHWC";
+
+    // update padding and dilation
+    auto in_dims = input->dims();
+    auto filter_dims = filter->dims();
+    framework::DDim in_data_dims;
+    framework::DDim filter_data_dims;
+
+    if (channel_last) {
+      in_data_dims = framework::slice_ddim(in_dims, 1, in_dims.size() - 1);
+    } else {
+      in_data_dims = framework::slice_ddim(in_dims, 2, in_dims.size());
+    }
+    filter_data_dims = framework::slice_ddim(filter_dims, 2, in_dims.size());
+
+    std::vector<int> ksize = framework::vectorize<int>(filter_data_dims);
+    UpdatePaddingAndDilation(&paddings, &dilations, padding_algorithm,
+                             in_data_dims, strides, ksize);
+
+    std::vector<int> strides_vec(4, 1);
+    std::vector<int> dilations_vec(4, 1);
+
+    Tensor input_tensor, output_tensor;
+    input_tensor.ShareDataWith(*input);
+    output_tensor.ShareDataWith(*output);
+    if (channel_last) {
+      input_tensor.set_layout(DataLayout::kNHWC);
+      output_tensor.set_layout(DataLayout::kNHWC);
+      strides_vec[1] = strides[0];
+      strides_vec[2] = strides[1];
+      dilations_vec[1] = dilations[0];
+      dilations_vec[2] = dilations[1];
+    } else {
+      strides_vec[2] = strides[0];
+      strides_vec[3] = strides[1];
+      dilations_vec[2] = dilations[0];
+      dilations_vec[3] = dilations[1];
+    }
+
+    const auto& runner =
+        NpuOpRunner("Conv2D", {input_tensor, *filter}, {output_tensor},
+                    {{"strides", strides_vec},
+                     {"pads", paddings},
+                     {"dilations", dilations_vec},
+                     {"groups", groups},
+                     {"data_format", data_format}});
+    runner.Run(dev_ctx.stream());
+  }
+};
+
+template <typename T>
+class NPUConvGradOpKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& ctx) const override {
+    auto& dev_ctx = ctx.template device_context<platform::NPUDeviceContext>();
+
+    auto input = ctx.Input<Tensor>("Input");
+    auto filter = ctx.Input<Tensor>("Filter");
+    auto output_grad = ctx.Input<Tensor>(framework::GradVarName("Output"));
+    auto input_grad = ctx.Output<Tensor>(framework::GradVarName("Input"));
+    auto filter_grad = ctx.Output<Tensor>(framework::GradVarName("Filter"));
+
+    const std::vector<int> strides = ctx.Attr<std::vector<int>>("strides");
+    std::vector<int> paddings = ctx.Attr<std::vector<int>>("paddings");
+    std::vector<int> dilations = ctx.Attr<std::vector<int>>("dilations");
+    int groups = ctx.Attr<int>("groups");
+    const std::string padding_algorithm =
+        ctx.Attr<std::string>("padding_algorithm");
+    const std::string data_format = ctx.Attr<std::string>("data_format");
+
+    const bool channel_last = data_format == "NHWC";
+
+    // update padding and dilation
+    auto in_dims = input->dims();
+    auto filter_dims = filter->dims();
+    framework::DDim in_data_dims;
+    framework::DDim filter_data_dims;
+
+    if (channel_last) {
+      in_data_dims = framework::slice_ddim(in_dims, 1, in_dims.size() - 1);
+    } else {
+      in_data_dims = framework::slice_ddim(in_dims, 2, in_dims.size());
+    }
+    filter_data_dims = framework::slice_ddim(filter_dims, 2, in_dims.size());
+
+    std::vector<int> ksize = framework::vectorize<int>(filter_data_dims);
+    UpdatePaddingAndDilation(&paddings, &dilations, padding_algorithm,
+                             in_data_dims, strides, ksize);
+
+    std::vector<int> strides_vec(4, 1);
+    std::vector<int> dilations_vec(4, 1);
+
+    Tensor input_tensor, output_grad_tensor;
+    input_tensor.ShareDataWith(*input);
+    output_grad_tensor.ShareDataWith(*output_grad);
+    if (channel_last) {
+      input_tensor.set_layout(DataLayout::kNHWC);
+      output_grad_tensor.set_layout(DataLayout::kNHWC);
+      strides_vec[1] = strides[0];
+      strides_vec[2] = strides[1];
+      dilations_vec[1] = dilations[0];
+      dilations_vec[2] = dilations[1];
+    } else {
+      strides_vec[2] = strides[0];
+      strides_vec[3] = strides[1];
+      dilations_vec[2] = dilations[0];
+      dilations_vec[3] = dilations[1];
+    }
+
+    if (filter_grad) {
+      filter_grad->mutable_data<T>(ctx.GetPlace());
+      std::vector<int> filter_shape_vec =
+          framework::vectorize<int>(filter->dims());
+
+      const auto& runner = NpuOpRunner(
+          "Conv2DBackpropFilterD", {input_tensor, output_grad_tensor},
+          {*filter_grad}, {{"filter_size", filter_shape_vec},
+                           {"strides", strides_vec},
+                           {"pads", paddings},
+                           {"dilations", dilations_vec},
+                           {"groups", groups},
+                           {"data_format", data_format}});
+      runner.Run(dev_ctx.stream());
+    }
+    if (input_grad) {
+      input_grad->mutable_data<T>(ctx.GetPlace());
+      std::vector<int> input_shape_vec =
+          framework::vectorize<int>(input->dims());
+
+      Tensor input_grad_tensor;
+      input_grad_tensor.ShareDataWith(*input_grad);
+      if (channel_last) {
+        input_grad_tensor.set_layout(DataLayout::kNHWC);
+      }
+      const auto& runner =
+          NpuOpRunner("Conv2DBackpropInputD", {*filter, output_grad_tensor},
+                      {input_grad_tensor}, {{"input_size", input_shape_vec},
+                                            {"strides", strides_vec},
+                                            {"pads", paddings},
+                                            {"dilations", dilations_vec},
+                                            {"groups", groups},
+                                            {"data_format", data_format}});
+      runner.Run(dev_ctx.stream());
+    }
+  }
+};
 }  // namespace operators
 }  // namespace paddle
 
@@ -135,3 +298,7 @@ REGISTER_OP_NPU_KERNEL(
     depthwise_conv2d,
     ops::DepthwiseConvNPUKernel<paddle::platform::NPUDeviceContext,
                                 paddle::platform::float16>);
+REGISTER_OP_NPU_KERNEL(conv2d, ops::NPUConvOpKernel<float>,
+                       ops::NPUConvOpKernel<paddle::platform::float16>);
+REGISTER_OP_NPU_KERNEL(conv2d_grad, ops::NPUConvGradOpKernel<float>,
+                       ops::NPUConvGradOpKernel<paddle::platform::float16>);