老师您好,我是NLP萌新,想请教您一个问题: 1. 训练医疗大模型,reward model的训练数据是什么呢,是医疗有关的(图1 的4k条数据)还是图二这种和医疗无关的呢?还是两者混合? 2.如果要混合,比例大概是多少呢? 3.训练reward model,数据量一般多少才有效呢? <img width="776" alt="Image" src="https://github.com/user-attachments/assets/23655617-300d-49e8-bfd0-7f2b8165074f" /> <img width="621" alt="Image" src="https://github.com/user-attachments/assets/42c4a331-7145-44ee-9433-87243cbeb3d9" />
老师您好,我是NLP萌新,想请教您一个问题:
2.如果要混合,比例大概是多少呢?
3.训练reward model,数据量一般多少才有效呢?