newway
diff --git a/‎lite/api/paddle_use_passes.h‎
Lines changed: 1 addition & 0 deletions b/‎lite/api/paddle_use_passes.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lite/core/optimizer/mir/fusion/__xpu__multi_encoder_adaptive_seqlen_v3_fuse_pass.cc‎
Lines changed: 221 additions & 0 deletions b/‎lite/core/optimizer/mir/fusion/__xpu__multi_encoder_adaptive_seqlen_v3_fuse_pass.cc‎
Lines changed: 221 additions & 0 deletions
diff --git a/‎lite/core/optimizer/optimizer.cc‎
Lines changed: 1 addition & 0 deletions b/‎lite/core/optimizer/optimizer.cc‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lite/kernels/xpu/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎lite/kernels/xpu/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lite/kernels/xpu/__xpu__mask_adaptive_compute.cc‎
Lines changed: 79 additions & 0 deletions b/‎lite/kernels/xpu/__xpu__mask_adaptive_compute.cc‎
Lines changed: 79 additions & 0 deletions
diff --git a/‎lite/kernels/xpu/__xpu__mask_adaptive_compute.h‎
Lines changed: 35 additions & 0 deletions b/‎lite/kernels/xpu/__xpu__mask_adaptive_compute.h‎
Lines changed: 35 additions & 0 deletions
diff --git a/‎lite/operators/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎lite/operators/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
@@ -87,6 +87,7 @@ USE_MIR_PASS(__xpu__conv2d_affine_channel_fuse_pass);
 USE_MIR_PASS(__xpu__conv2d_fuse_pass);
 USE_MIR_PASS(__xpu__softmax_topk_fuse_pass);
 USE_MIR_PASS(__xpu__multi_encoder_adaptive_seqlen_fuse_pass);
+USE_MIR_PASS(__xpu__multi_encoder_adaptive_seqlen_v3_fuse_pass);
 USE_MIR_PASS(__xpu__roformer_relative_pos_fuse_pass);
 USE_MIR_PASS(__xpu__multi_encoder_slice_link_fuse_pass);
 USE_MIR_PASS(__xpu__generate_sequence_fuse_pass);
 
@@ -0,0 +1,221 @@
+// Copyright (c) 2023 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include <memory>
+#include <string>
+#include "lite/backends/xpu/math.h"
+#include "lite/core/optimizer/mir/pass_registry.h"
+#include "lite/core/optimizer/mir/pattern_matcher_high_api.h"
+
+namespace paddle {
+namespace lite {
+namespace mir {
+namespace fusion {
+
+/* support adaptive seq len for mrc          */
+/*                in_Input      in_Mask      */
+/*                    |             |        */
+/*                    |             |        */
+/*                    |           matmul     */
+/*                    |             |        */
+/*                    |             |        */
+/*                    |           scale      */
+/*                    |           /          */
+/*                    |        stack         */
+/*                    |         |            */
+/*                    |        /             */
+/*                    |      /               */
+/*                xpu_encoder                */
+/*                    |                      */
+/*                    |                      */
+/*                out_Output                 */
+/*-------------------------------------------*/
+/* After the pass apply:                     */
+/*                in_Input  in_Mask          */
+/*                    |        |             */
+/*                    |        |             */
+/*                    | xpu_adaptive_mask    */
+/*                    |        |     |       */
+/*          sequence_unpad<--Lenght  |       */
+/*                    |              |       */
+/*                    |            PadSeqLen */
+/*                    |            SeqLod    */
+/*                    |            /         */
+/*                    |          /           */
+/*                    |        /             */
+/*                xpu_encoder                */
+/*                    |                      */
+/*                    |                      */
+/*                out_Output                 */
+/*-------------------------------------------*/
+
+class XPUMultiEncoderAdaptiveSeqlenV3Fuser : public FuseBase {
+ public:
+  explicit XPUMultiEncoderAdaptiveSeqlenV3Fuser(
+      const std::string& matmul_type = "matmul")
+      : matmul_type_(matmul_type) {}
+
+  void BuildPattern() override {
+    auto* mask = VarNode("mask")
+                     ->assert_is_op_input(matmul_type_, "X")
+                     ->assert_is_op_input(matmul_type_, "Y");
+    auto* matmul = OpNode(matmul_type_, matmul_type_)->AsIntermediate();
+    auto* matmul_out = VarNode("matmul_out")
+                           ->assert_is_op_input("scale", "X")
+                           ->assert_is_op_output(matmul_type_, "Out")
+                           ->AsIntermediate();
+    auto* scale =
+        OpNode("scale", "scale")
+            ->assert_op_attr<bool>("bias_after_scale", false)
+            ->assert_op_attr_satisfied<float>(
+                "bias",
+                [](float attr) { return (std::fabs(attr + 1.0) < 1e-5); })
+            ->assert_op_attr_satisfied<float>(
+                "scale",
+                [](float attr) { return (std::fabs(attr - 10000.0) < 1e-5); })
+            ->AsIntermediate();
+    auto* scale_out = VarNode("scale_out")
+                          ->assert_is_op_input("stack", "X")
+                          ->assert_is_op_output("scale", "Out")
+                          ->AsIntermediate();
+    auto* stack = OpNode("stack", "stack")->AsIntermediate();
+    auto* stack_out = VarNode("stack_out")
+                          ->assert_is_op_input("__xpu__multi_encoder", "Mask")
+                          ->assert_is_op_output("stack", "Y")
+                          ->AsIntermediate();
+    auto* encoder_input =
+        VarNode("encoder_input")
+            ->assert_is_op_input("__xpu__multi_encoder", "Input");
+    auto* xpu_encoder = OpNode("xpu_encoder", "__xpu__multi_encoder")
+                            ->assert_op_attr<bool>("adaptive_seqlen", true);
+
+    *mask >> *matmul >> *matmul_out >> *scale >> *scale_out >> *stack >>
+        *stack_out >> *xpu_encoder;
+    *encoder_input >> *xpu_encoder;
+  }
+
+  void InsertNewNode(SSAGraph* graph, const key2nodes_t& matched) override {
+    auto* encoder_instruct = matched.at("xpu_encoder")->stmt();
+    auto encoder_op_desc = encoder_instruct->mutable_op_info();
+    auto encoder_op = encoder_instruct->op();
+    auto* scope = encoder_op->scope();
+
+    // add new arg seq_lod
+    std::string stack_out_name = matched.at("stack_out")->arg()->name;
+    std::string xpu_mask_adaptive_seq_lod_name = stack_out_name + "_seq_lod";
+    auto* xpu_mask_adaptive_seq_lod_node =
+        graph->NewArgumentNode(xpu_mask_adaptive_seq_lod_name);
+    xpu_mask_adaptive_seq_lod_node->arg()->type = LiteType::GetTensorTy(
+        TARGET(kHost), PRECISION(kInt32), DATALAYOUT(kNCHW));
+    scope->NewTensor(xpu_mask_adaptive_seq_lod_name);
+    // add new arg pad_seq_len, store max padded length
+    std::string xpu_mask_adaptive_pad_seq_len_name =
+        stack_out_name + "_pad_seq_len";
+    auto* xpu_mask_adaptive_pad_seq_len_node =
+        graph->NewArgumentNode(xpu_mask_adaptive_pad_seq_len_name);
+    xpu_mask_adaptive_pad_seq_len_node->arg()->type = LiteType::GetTensorTy(
+        TARGET(kHost), PRECISION(kInt32), DATALAYOUT(kNCHW));
+    scope->NewTensor(xpu_mask_adaptive_pad_seq_len_name);
+    // add new arg length, for sequence_unpad, store length in batch
+    std::string xpu_mask_adaptive_seq_len_name = stack_out_name + "_seq_length";
+    auto* xpu_mask_adaptive_seq_len_node =
+        graph->NewArgumentNode(xpu_mask_adaptive_seq_len_name);
+    xpu_mask_adaptive_seq_len_node->arg()->type = LiteType::GetTensorTy(
+        TARGET(kHost), PRECISION(kInt64), DATALAYOUT(kNCHW));
+    scope->NewTensor(xpu_mask_adaptive_seq_len_name);
+
+    // add new packed input of encoder
+    std::string orig_encoder_input_name =
+        matched.at("encoder_input")->arg()->name;
+    std::string packed_encoder_input_name =
+        orig_encoder_input_name + "_vsl_packed";
+    auto* packed_encoder_input_node =
+        graph->NewArgumentNode(packed_encoder_input_name);
+    packed_encoder_input_node->arg()->type = LiteType::GetTensorTy(
+        TARGET(kXPU), PRECISION(kFloat), DATALAYOUT(kNCHW));
+    scope->NewTensor(packed_encoder_input_name);
+
+    // create xpu_mask_adaptive op to set lod
+    cpp::OpDesc op_desc;
+    op_desc.SetType("__xpu__mask_adaptive");
+    op_desc.SetInput("Mask", {matched.at("mask")->arg()->name});
+    op_desc.SetOutput(
+        "Length",
+        {xpu_mask_adaptive_seq_len_name});  // length for sequence_unpad op
+    op_desc.SetOutput("SeqLod",
+                      {xpu_mask_adaptive_seq_lod_name});  // lod for encoder op
+    op_desc.SetOutput("PadSeqLen", {xpu_mask_adaptive_pad_seq_len_name});
+    auto xpu_mask_adaptive_op =
+        LiteOpRegistry::Global().Create("__xpu__mask_adaptive");
+    auto& valid_places = encoder_op->valid_places();
+    xpu_mask_adaptive_op->Attach(op_desc, scope);
+    auto* xpu_mask_adaptive_node =
+        graph->GraphCreateInstructNode(xpu_mask_adaptive_op, valid_places);
+
+    // create sequence_unpad to pack the encoder input
+    cpp::OpDesc sequence_unpad_op_desc;
+    sequence_unpad_op_desc.SetType("sequence_unpad");
+    sequence_unpad_op_desc.SetInput("X",
+                                    {matched.at("encoder_input")->arg()->name});
+    sequence_unpad_op_desc.SetInput("Length", {xpu_mask_adaptive_seq_len_name});
+    sequence_unpad_op_desc.SetOutput("Out", {packed_encoder_input_name});
+    auto sequence_unpad_op = LiteOpRegistry::Global().Create("sequence_unpad");
+    sequence_unpad_op->Attach(sequence_unpad_op_desc, scope);
+    auto* sequence_unpad_node =
+        graph->GraphCreateInstructNode(sequence_unpad_op, valid_places);
+
+    encoder_op_desc->SetInput("Input", {packed_encoder_input_name});
+    encoder_op_desc->SetInput("SeqLod", {xpu_mask_adaptive_seq_lod_name});
+    encoder_op_desc->SetInput("PadSeqLen",
+                              {xpu_mask_adaptive_pad_seq_len_name});
+    auto updated_encoder_op_desc = *encoder_instruct->mutable_op_info();
+    encoder_instruct->ResetOp(updated_encoder_op_desc, valid_places);
+
+    RemoveDirectedLink(matched.at("encoder_input"), matched.at("xpu_encoder"));
+    DirectedLink(matched.at("mask"), xpu_mask_adaptive_node);
+    DirectedLink(xpu_mask_adaptive_node, xpu_mask_adaptive_seq_lod_node);
+    DirectedLink(xpu_mask_adaptive_node, xpu_mask_adaptive_pad_seq_len_node);
+    DirectedLink(xpu_mask_adaptive_node, xpu_mask_adaptive_seq_len_node);
+    DirectedLink(xpu_mask_adaptive_seq_lod_node, matched.at("xpu_encoder"));
+    DirectedLink(xpu_mask_adaptive_pad_seq_len_node, matched.at("xpu_encoder"));
+    DirectedLink(xpu_mask_adaptive_seq_len_node, sequence_unpad_node);
+    DirectedLink(matched.at("encoder_input"), sequence_unpad_node);
+    DirectedLink(sequence_unpad_node, packed_encoder_input_node);
+    DirectedLink(packed_encoder_input_node, matched.at("xpu_encoder"));
+  }
+
+ private:
+  std::string matmul_type_;
+};
+
+}  // namespace fusion
+
+class XPUMultiEncoderAdaptiveSeqlenV3FusePass : public ProgramPass {
+ public:
+  void Apply(const std::unique_ptr<SSAGraph>& graph) override {
+    std::vector<std::string> matmul_types{"matmul", "matmul_v2"};
+    for (auto& matmul_type : matmul_types) {
+      fusion::XPUMultiEncoderAdaptiveSeqlenV3Fuser fuser(matmul_type);
+      fuser(graph.get());
+    }
+  }
+};
+
+}  // namespace mir
+}  // namespace lite
+}  // namespace paddle
+
+REGISTER_MIR_PASS(__xpu__multi_encoder_adaptive_seqlen_v3_fuse_pass,
+                  paddle::lite::mir::XPUMultiEncoderAdaptiveSeqlenV3FusePass)
+    .BindTargets({TARGET(kXPU)});
@@ -205,6 +205,7 @@ std::unique_ptr<RuntimeProgram> RunDefaultOptimizer(
        "__xpu__fc_fuse_pass",
        "__xpu__softmax_topk_fuse_pass",
        "__xpu__multi_encoder_adaptive_seqlen_fuse_pass",
+       "__xpu__multi_encoder_adaptive_seqlen_v3_fuse_pass",
        "__xpu__multi_encoder_slice_link_fuse_pass",
        "__xpu__generate_sequence_fuse_pass",
        "__xpu__logit_fuse_pass",
 
@@ -110,6 +110,7 @@ add_kernel(deformable_conv_compute_xpu XPU extra SRCS deformable_conv_compute.cc
 add_kernel(__xpu__resnet50_compute_xpu XPU extra SRCS __xpu__resnet50_compute.cc)
 add_kernel(__xpu__multi_encoder_compute_xpu XPU extra SRCS __xpu__multi_encoder_compute.cc)
 add_kernel(__xpu__embedding_with_eltwise_add_compute_xpu XPU extra SRCS __xpu__embedding_with_eltwise_add_compute.cc)
+add_kernel(__xpu__mask_adaptive_compute_xpu XPU extra SRCS __xpu__mask_adaptive_compute.cc)
 add_kernel(__xpu__fc_compute_xpu XPU extra SRCS __xpu__fc_compute.cc)
 add_kernel(__xpu__search_attention_compute_xpu XPU extra SRCS __xpu__search_attention_compute.cc)
 add_kernel(__xpu__search_attention_2_compute_xpu XPU extra SRCS __xpu__search_attention_2_compute.cc)
 
@@ -0,0 +1,79 @@
+// Copyright (c) 2023 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include "lite/kernels/xpu/__xpu__mask_adaptive_compute.h"
+#include <vector>
+#include "lite/core/op_registry.h"
+
+namespace paddle {
+namespace lite {
+namespace kernels {
+namespace xpu {
+
+void XPUMaskAdaptiveCompute::Run() {
+  auto& param = this->template Param<param_t>();
+  CHECK(param.Mask && param.Mask->data<float>()) << "mask null";
+  auto& mask_dims = param.Mask->dims();
+  auto batch_size = mask_dims[0];
+  auto pad_seq_len = mask_dims[1];
+  param.PadSeqLen->mutable_data<int>()[0] = pad_seq_len;
+  auto* seq_lod = param.SeqLod;
+  seq_lod->Resize({batch_size + 1});
+  std::vector<int> cpu_seq_lod{0};
+  auto* seq_len = param.Length;
+  seq_len->Resize({batch_size});
+  std::vector<int64_t> cpu_seq_lens;
+
+  const float* mask_ptr = param.Mask->data<float>();
+
+  for (auto batch_idx = 0; batch_idx < batch_size; batch_idx++) {
+    int cur_batch_seq_len = 0;
+    for (auto seq_idx = 0; seq_idx < pad_seq_len; seq_idx++) {
+      if (mask_ptr[batch_idx * pad_seq_len + seq_idx] > 1e-7) {
+        cur_batch_seq_len += 1;
+      } else {
+        break;
+      }
+    }
+    CHECK_GT(cur_batch_seq_len, 0);
+    cpu_seq_lod.push_back(cpu_seq_lod.back() + cur_batch_seq_len);
+    cpu_seq_lens.push_back(cur_batch_seq_len);
+  }
+  auto* seq_lod_ptr = seq_lod->mutable_data<int>();
+  memcpy(seq_lod_ptr, cpu_seq_lod.data(), cpu_seq_lod.size() * sizeof(int));
+  auto* seq_lens_ptr = seq_len->mutable_data<int64_t>();
+  memcpy(
+      seq_lens_ptr, cpu_seq_lens.data(), cpu_seq_lens.size() * sizeof(int64_t));
+}
+
+}  // namespace xpu
+}  // namespace kernels
+}  // namespace lite
+}  // namespace paddle
+
+REGISTER_LITE_KERNEL(__xpu__mask_adaptive,
+                     kXPU,
+                     kFloat,
+                     kNCHW,
+                     paddle::lite::kernels::xpu::XPUMaskAdaptiveCompute,
+                     def)
+    .BindInput("Mask",
+               {LiteType::GetTensorTy(TARGET(kHost), PRECISION(kFloat))})
+    .BindOutput("SeqLod",
+                {LiteType::GetTensorTy(TARGET(kHost), PRECISION(kInt32))})
+    .BindOutput("PadSeqLen",
+                {LiteType::GetTensorTy(TARGET(kHost), PRECISION(kInt32))})
+    .BindOutput("Length",
+                {LiteType::GetTensorTy(TARGET(kHost), PRECISION(kInt64))})
+    .Finalize();
@@ -0,0 +1,35 @@
+// Copyright (c) 2023 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+#pragma once
+
+#include "lite/core/kernel.h"
+
+namespace paddle {
+namespace lite {
+namespace kernels {
+namespace xpu {
+
+class XPUMaskAdaptiveCompute
+    : public KernelLite<TARGET(kXPU), PRECISION(kFloat)> {
+ public:
+  using param_t = operators::XPUMaskAdaptiveParam;
+
+  void Run();
+  virtual ~XPUMaskAdaptiveCompute() = default;
+};
+
+}  // namespace xpu
+}  // namespace kernels
+}  // namespace lite
+}  // namespace paddle
@@ -234,6 +234,7 @@ add_operator(__xpu__multi_encoder_op extra SRCS __xpu__multi_encoder_op.cc)
 add_operator(__xpu__embedding_with_eltwise_add_op extra SRCS __xpu__embedding_with_eltwise_add_op.cc)
 add_operator(__xpu__fc_op extra SRCS __xpu__fc_op.cc)
 add_operator(__xpu__roformer_relative_embedding_op extra SRCS __xpu__roformer_relative_embedding_op.cc)
+add_operator(__xpu__mask_adaptive_op extra SRCS __xpu__mask_adaptive_op.cc)
 add_operator(__xpu__search_attention_op extra SRCS __xpu__search_attention_op.cc)
 add_operator(__xpu__mmdnn_op extra SRCS __xpu__mmdnn_op.cc)
 add_operator(__xpu__conv2d_op extra SRCS __xpu__conv2d_op.cc)