소스 검색

更换unsloth grpo的训练数据集并验证

zhouyang.xie 9 달 전
부모
커밋
efef4ac205
1개의 변경된 파일1개의 추가작업 그리고 1개의 파일을 삭제
  1. 1 1
      src/train_model_grpo.py

+ 1 - 1
src/train_model_grpo.py

@@ -209,7 +209,7 @@ class ModelTrainer:
                 correctness_reward_func,
             ],
             args = training_args,
-            train_dataset = dataset,
+            train_dataset = train_dataset,
         )
         
         # 训练模型