Merge branch 'develop' into 9_19_llama

bmers · web-flow · commit ad90acbb1768 · 2023-09-19T18:17:45.000+08:00
diff --git a/backends/npu/custom_op/llama_process_op.cc b/backends/npu/custom_op/llama_process_op.cc
@@ -607,7 +607,7 @@ void fused_get_rotary_embedding(const int64_t* position_ids,
     }
 }
 
-std::vector<std::vector<int64_t>> GetRoPEInferShape(const std::vector<int64_t>& head_dim_shape_tensor_shape,
+std::vector<std::vector<int64_t>> GetRoPEInferShape(const std::vector<int64_t>& head_dim_shape_tensor_shape, 
                                                     const std::vector<int64_t>& input_ids_shape, 
                                                     const std::vector<int64_t>& position_ids_shape) {
     const int64_t batch_size = position_ids_shape[0]; 
@@ -617,8 +617,8 @@ std::vector<std::vector<int64_t>> GetRoPEInferShape(const std::vector<int64_t>&
     return {out_shape};
 }
 
-std::vector<paddle::DataType> GetRoPEInferDtype(const paddle::DataType& head_dim_shape_tensor_dtype,
-                                                const paddle::DataType& input_ids_dtype,
+std::vector<paddle::DataType> GetRoPEInferDtype(const paddle::DataType& head_dim_shape_tensor_dtype, 
+                                                const paddle::DataType& input_ids_dtype, 
                                                 const paddle::DataType& position_ids_dtype) {
     // RoPE output dtype is Float. 
     return {paddle::DataType::FLOAT32};
diff --git a/backends/npu/passes/common.py b/backends/npu/passes/common.py
@@ -20,7 +20,7 @@ def register_pass(pass_builder, pass_name):
     paddle.base.core.register_subgraph_pass(pass_name)
 
 def addPasses(pass_builder, model_type):
-    if model_type == "llama_mp8_dynamic_batch":
+    if model_type == "llama7B_mp8_dynamic_batch":
         register_pass(pass_builder, "llama_fuse_attention_dynamic_parallel_layer1")
         register_pass(pass_builder, "llama_fuse_attention_dynamic_parallel_layer2")
         register_pass(pass_builder, "llama_fuse_attention_dynamic_first_parallel_layer")
@@ -30,6 +30,17 @@ def addPasses(pass_builder, model_type):
         register_pass(pass_builder, "remove_get_padding_offset")
         register_pass(pass_builder, "remove_get_token_penalty_multi_scores")
         register_pass(pass_builder, "llama_layer_tail")
-        
+
+    elif model_type == "llama65B_mp8_dynamic_batch":
+        register_pass(pass_builder, "llama_fuse_attention_dynamic_parallel_layer1")
+        register_pass(pass_builder, "llama_fuse_attention_dynamic_parallel_layer2")
+        register_pass(pass_builder, "llama65B_fuse_attention_dynamic_first_parallel_layer")
+        register_pass(pass_builder, "llama65B_fuse_attention_dynamic_parallel_layer")
+        register_pass(pass_builder, "remove_fused_bias_residual_layernorm")
+        register_pass(pass_builder, "remove_rebuild_padding")
+        register_pass(pass_builder, "remove_get_padding_offset")
+        register_pass(pass_builder, "remove_get_token_penalty_multi_scores")
+        register_pass(pass_builder, "llama_layer_tail")
+
     else:
         print("NPU pass not support")
diff --git a/backends/npu/passes/llama_pass.py b/backends/npu/passes/llama_pass.py
@@ -721,6 +721,102 @@ def replace(x, input_ids, padding_offset, seq_len_encoder, cache_kv, mask, rotar
 
     return pattern, replace
 
+@ir.RegisterPass
+def llama65B_fuse_attention_dynamic_parallel_layer():
+    def pattern(x, residual, input_ids, padding_offset, seq_len_encoder, cache_kv, mask, rotary_emb, ln_scale, qkv_weight, out_proj_weight, ffn_in_scale, ffn1_weight, ffn2_weight):
+        rms_norm_0 = ir.PassDesc.OP.rms_norm(norm_weight=ln_scale, residual=residual, x=x)
+        qkv = ir.PassDesc.OP.matmul_v2(X=rms_norm_0.Output("out"), Y=qkv_weight)
+        qkv_split = ir.PassDesc.OP.qkv_transpose_split(input_ids=input_ids, padding_offset=padding_offset, qkv=qkv, seq_lens=seq_len_encoder)
+        q = qkv_split.Output("q_out")[0]
+        k = qkv_split.Output("k_out")[0]
+        v = qkv_split.Output("v_out")[0]
+        scale1 = ir.PassDesc.OP.scale(X=seq_len_encoder)
+        write_cache_kv = ir.PassDesc.OP.write_cache_kv(cache_kv=cache_kv, input_k=k, input_v=v, sequence_lengths=scale1)
+        scale2 = ir.PassDesc.OP.scale(X=seq_len_encoder)
+        attention = ir.PassDesc.OP.variable_length_memory_efficient_attention(key=k, kv_seq_lens=scale2, mask=mask, query=q, seq_lens=seq_len_encoder, value=v)
+        
+        transpose_remove_padding = ir.PassDesc.OP.transpose_remove_padding(input=attention, padding_offset=padding_offset, seq_lens=seq_len_encoder)
+        matmul_0 = ir.PassDesc.OP.matmul_v2(X=transpose_remove_padding, Y=out_proj_weight)
+        
+        allreduce = ir.PassDesc.OP.c_allreduce_sum(X=matmul_0)
+        
+        rms_norm_1 = ir.PassDesc.OP.rms_norm(norm_weight=ffn_in_scale, residual=rms_norm_0.Output("residual_out")[0], x=allreduce)
+        matmul_1 = ir.PassDesc.OP.matmul_v2(X=rms_norm_1.Output("out"), Y=ffn1_weight)
+        fused_bias_act = ir.PassDesc.OP.fused_bias_act(x=matmul_1)
+        
+        matmul_2 = ir.PassDesc.OP.matmul_v2(X=fused_bias_act, Y=ffn2_weight)
+        hidden = ir.PassDesc.OP.c_allreduce_sum(X=matmul_2)
+        residual_out = rms_norm_1.Output("residual_out")[0]
+        
+        encode_rotary_qk = ir.PassDesc.OP.encode_rotary_qk(kv=k, q=q, rotary_emb=rotary_emb, seq_lens=seq_len_encoder)
+        rotary_kv_out = encode_rotary_qk.Output("rotary_kv_out")[0]
+        rotary_q_out = encode_rotary_qk.Output("rotary_q_out")[0]
+        
+        return write_cache_kv, q, k, v, hidden, residual_out, rotary_kv_out, rotary_q_out
+        
+    def replace(x, residual, input_ids, padding_offset, seq_len_encoder, cache_kv, mask, rotary_emb, ln_scale, qkv_weight, out_proj_weight, ffn_in_scale, ffn1_weight, ffn2_weight):
+        llama_layer = llama_paralle_layer_adaptor(x, residual, input_ids, padding_offset, seq_len_encoder, cache_kv, mask, rotary_emb, ln_scale, qkv_weight, out_proj_weight, ffn_in_scale, ffn1_weight, ffn2_weight)
+        
+        return (llama_layer[3],
+            llama_layer[4],
+            llama_layer[5],
+            llama_layer[6],
+            llama_layer[0],
+            llama_layer[7],
+            llama_layer[1],
+            llama_layer[2])
+
+    return pattern, replace
+    
+
+@ir.RegisterPass
+def llama65B_fuse_attention_dynamic_first_parallel_layer():
+    def pattern(x, input_ids, padding_offset, seq_len_encoder, cache_kv, mask, rotary_emb, ln_scale, qkv_weight, out_proj_weight, ffn_in_scale, ffn1_weight, ffn2_weight):
+        rms_norm_0 = ir.PassDesc.OP.rms_norm(norm_weight=ln_scale, x=x)
+        qkv = ir.PassDesc.OP.matmul_v2(X=rms_norm_0.Output("out"), Y=qkv_weight)
+        qkv_split = ir.PassDesc.OP.qkv_transpose_split(input_ids=input_ids, padding_offset=padding_offset, qkv=qkv, seq_lens=seq_len_encoder)
+        q = qkv_split.Output("q_out")[0]
+        k = qkv_split.Output("k_out")[0]
+        v = qkv_split.Output("v_out")[0]
+        scale1 = ir.PassDesc.OP.scale(X=seq_len_encoder)
+        write_cache_kv = ir.PassDesc.OP.write_cache_kv(cache_kv=cache_kv, input_k=k, input_v=v, sequence_lengths=scale1)
+        scale2 = ir.PassDesc.OP.scale(X=seq_len_encoder)
+        attention = ir.PassDesc.OP.variable_length_memory_efficient_attention(key=k, kv_seq_lens=scale2, mask=mask, query=q, seq_lens=seq_len_encoder, value=v)
+        
+        transpose_remove_padding = ir.PassDesc.OP.transpose_remove_padding(input=attention, padding_offset=padding_offset, seq_lens=seq_len_encoder)
+        matmul_0 = ir.PassDesc.OP.matmul_v2(X=transpose_remove_padding, Y=out_proj_weight)
+        
+        allreduce = ir.PassDesc.OP.c_allreduce_sum(X=matmul_0)
+        
+        rms_norm_1 = ir.PassDesc.OP.rms_norm(norm_weight=ffn_in_scale, residual=x, x=allreduce)
+        matmul_1 = ir.PassDesc.OP.matmul_v2(X=rms_norm_1.Output("out"), Y=ffn1_weight)
+        fused_bias_act = ir.PassDesc.OP.fused_bias_act(x=matmul_1)
+        
+        matmul_2 = ir.PassDesc.OP.matmul_v2(X=fused_bias_act, Y=ffn2_weight)
+        hidden = ir.PassDesc.OP.c_allreduce_sum(X=matmul_2)
+        residual_out = rms_norm_1.Output("residual_out")[0]
+        
+        encode_rotary_qk = ir.PassDesc.OP.encode_rotary_qk(kv=k, q=q, rotary_emb=rotary_emb, seq_lens=seq_len_encoder)
+        rotary_kv_out = encode_rotary_qk.Output("rotary_kv_out")[0]
+        rotary_q_out = encode_rotary_qk.Output("rotary_q_out")[0]
+        
+        return write_cache_kv, q, k, v, hidden, residual_out, rotary_kv_out, rotary_q_out
+        
+    def replace(x, input_ids, padding_offset, seq_len_encoder, cache_kv, mask, rotary_emb, ln_scale, qkv_weight, out_proj_weight, ffn_in_scale, ffn1_weight, ffn2_weight):
+        llama_layer = llama_paralle_layer_adaptor(x, None, input_ids, padding_offset, seq_len_encoder, cache_kv, mask, rotary_emb, ln_scale, qkv_weight, out_proj_weight, ffn_in_scale, ffn1_weight, ffn2_weight)
+        
+        return (llama_layer[3],
+            llama_layer[4],
+            llama_layer[5],
+            llama_layer[6],
+            llama_layer[0],
+            llama_layer[7],
+            llama_layer[1],
+            llama_layer[2])
+
+    return pattern, replace
+
+
 @ir.RegisterPass
 def llama_layer_tail():
     def pattern(x, norm_weight):
@@ -729,5 +825,4 @@ def pattern(x, norm_weight):
 
     def replace(x, norm_weight):
         norm = ir.PassDesc.OP.llama_lmhead(Hidden=x, NormWeight=norm_weight)
-        return norm
-    return pattern, replace
+        return norm

Original file line number	Diff line number	Diff line change
`@@ -607,7 +607,7 @@ void fused_get_rotary_embedding(const int64_t* position_ids,`
`607`	`607`	`}`
`608`	`608`	`}`
`609`	`609`
`610`		`-std::vector<std::vector<int64_t>> GetRoPEInferShape(const std::vector<int64_t>& head_dim_shape_tensor_shape,`
	`610`	`+std::vector<std::vector<int64_t>> GetRoPEInferShape(const std::vector<int64_t>& head_dim_shape_tensor_shape,`
`611`	`611`	`const std::vector<int64_t>& input_ids_shape,`
`612`	`612`	`const std::vector<int64_t>& position_ids_shape) {`
`613`	`613`	`const int64_t batch_size = position_ids_shape[0];`
`@@ -617,8 +617,8 @@ std::vector<std::vector<int64_t>> GetRoPEInferShape(const std::vector<int64_t>&`
`617`	`617`	`return {out_shape};`
`618`	`618`	`}`
`619`	`619`
`620`		`-std::vector<paddle::DataType> GetRoPEInferDtype(const paddle::DataType& head_dim_shape_tensor_dtype,`
`621`		`- const paddle::DataType& input_ids_dtype,`
	`620`	`+std::vector<paddle::DataType> GetRoPEInferDtype(const paddle::DataType& head_dim_shape_tensor_dtype,`
	`621`	`+ const paddle::DataType& input_ids_dtype,`
`622`	`622`	`const paddle::DataType& position_ids_dtype) {`
`623`	`623`	`// RoPE output dtype is Float.`
`624`	`624`	`return {paddle::DataType::FLOAT32};`