CSL 样本噪声问题

关键词识别任务，
”csl_public.zip 取自中文论文摘要及其关键词，论文选自部分中文社会科学和自然科学核心期刊。使用tf-idf生成伪造关键词与论文真实关键词混合，构造摘要-关键词对，机器学习模型的任务目标是根据摘要判断关键词是否全部为真实关键词“
存在一个问题：tf-idf生成的可能是真关键词，在训练集和验证集中发现了一些噪声：
![image](https://user-images.githubusercontent.com/37020799/114124225-8a1e9880-9926-11eb-93b3-b208f49299ee.png)
测试集可能也有，如何处理这种噪声？能否公开关键词混合的方法？