9 kuukautta sitten · efef4ac205
--- a/src/train_model_grpo.py
+++ b/src/train_model_grpo.py
@@ -209,7 +209,7 @@ class ModelTrainer:
 
				                 correctness_reward_func,
			
 
				             ],
			
 
				             args = training_args,
			
 
				-            train_dataset = dataset,
			
 
				+            train_dataset = train_dataset,
			
 
				         )
			
 
				         
			
 
				         # 训练模型