update readme (#728)

lyuwenyu · lyuwenyu · commit 17d60cedef12 · 2024-10-09T10:34:42.000+08:00
diff --git a/paddlemix/datacopilot/example/pp_inscaptagger/readme.md b/paddlemix/datacopilot/example/pp_inscaptagger/readme.md
@@ -93,9 +93,13 @@ LLaVA v1.5模型SFT阶段训练时，使用的指令微调数据集为[LLaVA-Ins
 
 使用PP-InsCapTagger对llava_v1_5_mix665k数据集进行打标，可以得到7913个标签，对数量最多的前100个标签分布进行可视化，可以看出标签分布存在较大的差异，如下图所示：
 
+<details>
+<summary>See</summary>
 <center><img src="https://github.com/user-attachments/assets/48e30848-fe18-4e1a-a9a5-6c6f18ad9029" width = "300"/></center>
+</details>
 
-为了对llava_v1_5_mix665k数据集进行优化，我们使用PP-InsCapTagger打标的标签结果对数据集进行筛选，首先确定出能够覆盖80%数据的单条数据的标签数量N，然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R，对于llava_v1_5_mix665k数据集中的每条数据，如果该条数据标签数量小于N，且该条数据的所有标签均在集合R中，则删除该条数据，否则保留该条数据。通过该筛选策略，最终保留数据集规模为原始数据集的50%左右。
+
+为了对llava_v1_5_mix665k数据集进行优化，我们使用PP-InsCapTagger打标的标签结果对数据集进行筛选，**首先确定出能够覆盖80%数据的单条数据的标签数量N，然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R，对于llava_v1_5_mix665k数据集中的每条数据，如果该条数据标签数量小于N，且该条数据的所有标签均在集合R中，则删除该条数据，否则保留该条数据**。通过该筛选策略，最终保留数据集规模为原始数据集的50%左右。
 
 我们分别使用llava_v1_5_mix665k数据集和筛选后的数据集进行llava-1.5-7b SFT阶段训练，对比结果如下表所示：