fix var name

fxyfxy777 · fxyfxy777 · commit 6e1b3e9f5d8b · 2026-04-01T14:03:30.000+08:00
diff --git a/fastdeploy/model_executor/models/glm4_moe.py b/fastdeploy/model_executor/models/glm4_moe.py
@@ -166,11 +166,11 @@ def __init__(
         # In all other modes (EP, EP+attn-TP, no parallelism) each branch handles
         # its own reduction internally (reduce_results default=True), so we must
         # NOT add an extra all-reduce here.
-        self._pure_tp = self.use_tp and not self.use_ep
+        self.merge_ffn_tp = self.use_tp and not self.use_ep
 
         self.experts = FusedMoE(
             fd_config,
-            reduce_results=not self._pure_tp,
+            reduce_results=not self.merge_ffn_tp,
             renormalize=self.norm_topk_prob,
             moe_intermediate_size=fd_config.model_config.moe_intermediate_size,
             num_experts=fd_config.model_config.n_routed_experts,
@@ -191,14 +191,14 @@ def __init__(
                 intermediate_size=shared_experts_intermediate_size,
                 layer_id=layer_id,
                 prefix=f"{prefix}.shared_experts",
-                reduce_results=not self._pure_tp,
+                reduce_results=not self.merge_ffn_tp,
             )
 
     def forward(self, x, forward_meta: ForwardMeta = None):
         out = self.experts(x, self.gate, forward_meta)
         if self.n_shared_experts > 0:
             out = out + self.shared_experts(x)
-        if self._pure_tp:
+        if self.merge_ffn_tp:
             # Both branches produced partial sums; combine first, then single all-reduce.
             out = tensor_model_parallel_all_reduce(out, self.tp_group)
         return out