参考 [trl](https://github.com/huggingface/trl) 和 [DeepSpeed Chat](https://github.com/microsoft/DeepSpeed/blob/master/blogs/deepspeed-chat/chinese/README.md),希望 collie 支持 RLHF 三阶段的训练流程。
参考 trl 和 DeepSpeed Chat,希望 collie 支持 RLHF 三阶段的训练流程。