modify benchmark compare skill

Linboyan-trc · Linboyan-trc · commit e694aff9c3ab · 2026-05-14T00:49:40.000+08:00
diff --git a/.claude/skills/benchmark-compare/README.md b/.claude/skills/benchmark-compare/README.md
@@ -15,7 +15,7 @@
 模型：<path_to_model>
 数据集：<path_to_dataset>
 并发：64，512
-量化：不量化（BF16），FP8
+量化：不量化（BF16），FP8（Block-Wise）
 使用GPU5和GPU6
 ```
 
@@ -26,9 +26,11 @@
 | 模型路径 | 是 | 模型权重目录的完整路径 | `/path/to/GLM-4.7-Flash` |
 | 数据集 | 否（有默认值） | JSONL 格式的测试数据集 | `/path/to/data.jsonl` |
 | 并发 | 否（默认 32） | 一个或多个并发数，逗号分隔 | `64，512` |
-| 量化 | 否（默认 BF16） | 一种或多种量化方式 | `不量化（BF16），FP8` |
-| GPU | 否（自动选空闲卡） | 指定使用哪些 GPU | `使用GPU5和GPU6` |
+| 量化 | 否（默认 BF16） | 一种或多种量化方式，FD 使用 Block-Wise FP8，SG 使用 Per-Tensor FP8 | `不量化（BF16），FP8` |
+| GPU | 否（自动选空闲卡） | 指定使用哪些 GPU | `使用GPU0-7` |
 | TP | 否（默认 1） | tensor-parallel 大小 | `TP=4` |
+| DP | 否（默认 1） | data-parallel 大小 | `DP=2` |
+| EP | 否（默认不启用） | expert-parallel 大小，MoE 模型专用 | `EP=8` |
 
 ### 使用示例
 
@@ -42,9 +44,14 @@
 帮我跑 benchmark，模型用 /path/to/Qwen2.5-72B，TP=4，并发 64
 ```
 
+**TP+DP+EP 组合**（MoE 模型 8 卡全并行）：
+```
+对比测试 GLM-4.7-Flash，TP=4，DP=2，EP=8，并发 64 和 512，量化 BF16 和 FP8
+```
+
 **多场景对比**（多种量化 × 多种并发）：
 ```
-对比测试 GLM-4.7-Flash，并发 64 和 512，量化 BF16 和 FP8
+对比测试 GLM-4.7-Flash，并发 64 和 512，量化 BF16 和 FP8（Block-Wise）
 ```
 
 **仅生成报告**（已有测试数据）：
@@ -74,7 +81,7 @@ Agent 会自动执行以下步骤：
 ## 输出结果
 
 - **HTML 报告**：`benchmark_results/benchmark_report.html`
-  - 支持量化方式切换（BF16 / FP8）
+  - 支持量化方式切换（BF16 / FP8 Block-Wise）
   - 支持并发数切换（64 / 512 等）
   - 明暗主题切换
   - Chart.js 可视化图表
@@ -105,6 +112,7 @@ benchmark-compare/
 |------|------|----------|----------|
 | single | 单卡部署，FD 和 SG 各一张 | 2 张 | TP=1（默认） |
 | tp | 多卡 Tensor Parallel | 2 × TP 张 | TP > 1 |
+| tp_dp_ep | TP + DP + EP 全并行（MoE 模型） | TP × DP 张（两框架共用同批卡） | TP > 1 且 DP > 1 且 EP > 0 |
 | pd | PD 分离（仅 FD），SG 标准模式 | TP + 1 + TP 张 | 用户指定 pd |
 | multi-node | 多机部署 | 用户指定 | 用户提供节点 IP |
 
@@ -117,6 +125,10 @@ benchmark-compare/
 
 ## 注意事项
 
+- **EP 并行映射差异**：
+  - FastDeploy：`--enable-expert-parallel` 为 flag，EP size 隐式等于 TP × DP
+  - SGLang：`--ep-size N` 为显式数值参数
+  - 典型配置：TP=4, DP=2, EP=8 表示 8 卡全部参与 expert 并行
 - **FP8 量化类型**：用户说"FP8"时，实际对应两种不同实现：
   - FastDeploy 使用 `--quantization block_wise_fp8`（Block-Wise FP8，按 block 粒度量化，精度损失更小）
   - SGLang 使用 `--quantization fp8`（Per-Tensor FP8，粗粒度量化）
diff --git a/.claude/skills/benchmark-compare/SKILL.md b/.claude/skills/benchmark-compare/SKILL.md
@@ -44,8 +44,9 @@ user_invocable: true
 | 是否量化 | `QUANTIZATION` | `none` | `none` / `block_wise_fp8`(FD) + `fp8`(SG) / `wint4` / `wint8`。注意：用户说"FP8"时，FD 实际使用 Block-Wise FP8（`--quantization block_wise_fp8`），SG 使用 per-tensor FP8（`--quantization fp8`），两者量化粒度不同，报告中需明确标注 |
 | 数据集路径 | `DATASET_PATH` | `<path_to_dataset>` | JSONL 格式 |
 | TP 大小 | `TP_SIZE` | `1` | tensor-parallel-size |
-| DP 大小 | `DP_SIZE` | `1` | data-parallel-size（仅 FD 支持） |
-| 部署模式 | `DEPLOY_MODE` | `single` | `single` / `tp` / `pd` / `multi-node` |
+| DP 大小 | `DP_SIZE` | `1` | data-parallel-size |
+| EP 大小 | `EP_SIZE` | `0` | expert-parallel-size，MoE 模型专用。FD 映射为 `--enable-expert-parallel`（EP size 隐式=TP×DP），SG 映射为 `--ep-size N` |
+| 部署模式 | `DEPLOY_MODE` | `single` | `single` / `tp` / `tp_dp_ep` / `pd` / `multi-node` |
 | FD 端口 | `FD_PORT` | `8180` | FastDeploy 服务端口 |
 | SG 端口 | `SG_PORT` | `8280` | SGLang 服务端口 |
 | GPU 列表 | `GPU_LIST` | 自动选择空闲卡 | 逗号分隔，如 `0,1,2,3` |
diff --git a/.claude/skills/benchmark-compare/scripts/launch_service.sh b/.claude/skills/benchmark-compare/scripts/launch_service.sh
@@ -1,6 +1,6 @@
 #!/usr/bin/env bash
 # launch_service.sh — 通用推理框架服务启动脚本
-# 支持 FastDeploy / SGLang，支持单卡/多卡 TP/PD 分离模式
+# 支持 FastDeploy / SGLang，支持单卡/多卡 TP/DP/EP/PD 分离模式
 set -euo pipefail
 
 # ============================================================
@@ -12,6 +12,7 @@ PORT=""
 GPUS=""
 TP=1
 DP=1
+EP=0
 CONCURRENCY=32
 MAX_MODEL_LEN=65536
 QUANTIZATION="none"
@@ -30,12 +31,15 @@ usage() {
   --framework <fd|sg>         推理框架 (fd=FastDeploy, sg=SGLang)
   --model <PATH>              模型权重路径
   --port <PORT>               服务端口
-  --gpus <DEVICES>            CUDA_VISIBLE_DEVICES (如 "0" 或 "0,1,2,3")
+  --gpus <DEVICES>            CUDA_VISIBLE_DEVICES (如 "0" 或 "0,1,2,3,4,5,6,7")
   --venv <PATH>               虚拟环境路径 (.venv 目录)
 
 可选参数:
   --tp <N>                    tensor-parallel-size (默认: 1)
-  --dp <N>                    data-parallel-size, 仅 FD (默认: 1)
+  --dp <N>                    data-parallel-size (默认: 1)
+  --ep <N>                    expert-parallel-size, MoE 模型专用 (默认: 0, 不启用)
+                              FD: 映射为 --enable-expert-parallel (EP=TP×DP 隐式)
+                              SG: 映射为 --ep-size N
   --concurrency <N>           max-num-seqs / max-running-requests (默认: 32)
   --max-model-len <N>         最大序列长度 (默认: 65536)
   --quantization <TYPE>       量化方式: none|block_wise_fp8|fp8|wint4|wint8 (默认: none)
@@ -50,9 +54,13 @@ usage() {
   bash launch_service.sh --framework fd --model /path/to/model --port 8180 \
     --gpus 0 --venv /path/to/FastDeploy/.venv
 
-  # 多卡 TP=4 启动 SGLang
+  # TP=4 + DP=2 + EP=8 启动 FastDeploy (MoE, 8卡)
+  bash launch_service.sh --framework fd --model /path/to/model --port 8180 \
+    --gpus 0,1,2,3,4,5,6,7 --tp 4 --dp 2 --ep 8 --venv /path/to/FastDeploy/.venv
+
+  # TP=4 + DP=2 + EP=8 启动 SGLang (MoE, 8卡)
   bash launch_service.sh --framework sg --model /path/to/model --port 8280 \
-    --gpus 0,1,2,3 --tp 4 --venv /path/to/sglang_env/.venv
+    --gpus 0,1,2,3,4,5,6,7 --tp 4 --dp 2 --ep 8 --venv /path/to/sglang_env/.venv
 EOF
     exit "${1:-0}"
 }
@@ -65,6 +73,7 @@ while [[ $# -gt 0 ]]; do
         --gpus)            GPUS="$2"; shift 2 ;;
         --tp)              TP="$2"; shift 2 ;;
         --dp)              DP="$2"; shift 2 ;;
+        --ep)              EP="$2"; shift 2 ;;
         --concurrency)     CONCURRENCY="$2"; shift 2 ;;
         --max-model-len)   MAX_MODEL_LEN="$2"; shift 2 ;;
         --quantization)    QUANTIZATION="$2"; shift 2 ;;
@@ -111,7 +120,7 @@ launch_fastdeploy() {
     echo "[INFO] 启动 FastDeploy 服务..."
     echo "  模型: $MODEL"
     echo "  端口: $PORT"
-    echo "  GPU: $GPUS (TP=$TP, DP=$DP)"
+    echo "  GPU: $GPUS (TP=$TP, DP=$DP, EP=$EP)"
     echo "  并发: $CONCURRENCY"
     echo "  量化: $QUANTIZATION"
     echo "  日志: $LOG_FILE"
@@ -156,6 +165,11 @@ else:
         CMD+=" --data-parallel-size $DP"
     fi
 
+    # EP (expert parallelism) — FD 只有 flag，EP size 隐式 = TP×DP
+    if [[ "$EP" -gt 0 ]]; then
+        CMD+=" --enable-expert-parallel"
+    fi
+
     # 量化
     if [[ "$QUANTIZATION" != "none" ]]; then
         CMD+=" --quantization $QUANTIZATION"
@@ -184,7 +198,7 @@ launch_sglang() {
     echo "[INFO] 启动 SGLang 服务..."
     echo "  模型: $MODEL"
     echo "  端口: $PORT"
-    echo "  GPU: $GPUS (TP=$TP)"
+    echo "  GPU: $GPUS (TP=$TP, DP=$DP, EP=$EP)"
     echo "  并发: $CONCURRENCY"
     echo "  量化: $QUANTIZATION"
     echo "  日志: $LOG_FILE"
@@ -208,6 +222,16 @@ launch_sglang() {
     CMD+=" --max-running-requests $CONCURRENCY"
     CMD+=" --attention-backend $ATTENTION_BACKEND"
 
+    # DP (data parallelism)
+    if [[ "$DP" -gt 1 ]]; then
+        CMD+=" --dp-size $DP"
+    fi
+
+    # EP (expert parallelism) — SG 使用显式 --ep-size
+    if [[ "$EP" -gt 0 ]]; then
+        CMD+=" --ep-size $EP"
+    fi
+
     # 量化
     if [[ "$QUANTIZATION" != "none" ]]; then
         local SG_QUANT="$QUANTIZATION"