reward model 训练数据量的问题

老师您好，我是NLP萌新，想请教您一个问题：
1. 训练医疗大模型，reward model的训练数据是什么呢，是医疗有关的（图1 的4k条数据）还是图二这种和医疗无关的呢？还是两者混合？
2.如果要混合，比例大概是多少呢？
3.训练reward model，数据量一般多少才有效呢？

<img width="776" alt="Image" src="https://github.com/user-attachments/assets/23655617-300d-49e8-bfd0-7f2b8165074f" />

<img width="621" alt="Image" src="https://github.com/user-attachments/assets/42c4a331-7145-44ee-9433-87243cbeb3d9" />


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

reward model 训练数据量的问题 #439

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

reward model 训练数据量的问题 #439

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions