先用自己的数据进行pt,生成一个模型,之后训练full_sft,训练过程grad_norm为0,不收敛。但是直接用基座模型进行full_sft是可以的。这个是哪里设置不对
先用自己的数据进行pt,生成一个模型,之后训练full_sft,训练过程grad_norm为0,不收敛。但是直接用基座模型进行full_sft是可以的。这个是哪里设置不对