File tree Expand file tree Collapse file tree
paddlemix/datacopilot/example/pp_inscaptagger Expand file tree Collapse file tree Original file line number Diff line number Diff line change @@ -93,9 +93,13 @@ LLaVA v1.5模型SFT阶段训练时,使用的指令微调数据集为[LLaVA-Ins
9393
9494使用PP-InsCapTagger对llava_v1_5_mix665k数据集进行打标,可以得到7913个标签,对数量最多的前100个标签分布进行可视化,可以看出标签分布存在较大的差异,如下图所示:
9595
96+ <details >
97+ <summary >See</summary >
9698<center ><img src =" https://github.com/user-attachments/assets/48e30848-fe18-4e1a-a9a5-6c6f18ad9029 " width = " 300 " /></center >
99+ </details >
97100
98- 为了对llava_v1_5_mix665k数据集进行优化,我们使用PP-InsCapTagger打标的标签结果对数据集进行筛选,首先确定出能够覆盖80%数据的单条数据的标签数量N,然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R,对于llava_v1_5_mix665k数据集中的每条数据,如果该条数据标签数量小于N,且该条数据的所有标签均在集合R中,则删除该条数据,否则保留该条数据。通过该筛选策略,最终保留数据集规模为原始数据集的50%左右。
101+
102+ 为了对llava_v1_5_mix665k数据集进行优化,我们使用PP-InsCapTagger打标的标签结果对数据集进行筛选,** 首先确定出能够覆盖80%数据的单条数据的标签数量N,然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R,对于llava_v1_5_mix665k数据集中的每条数据,如果该条数据标签数量小于N,且该条数据的所有标签均在集合R中,则删除该条数据,否则保留该条数据** 。通过该筛选策略,最终保留数据集规模为原始数据集的50%左右。
99103
100104我们分别使用llava_v1_5_mix665k数据集和筛选后的数据集进行llava-1.5-7b SFT阶段训练,对比结果如下表所示:
101105
You can’t perform that action at this time.
0 commit comments