9 miesięcy temu · 73be517bb5
--- a/src/train_model_grpo_v1.1.py
+++ b/src/train_model_grpo_v1.1.py
@@ -80,7 +80,7 @@ class ModelTrainer:
 
				         """
			
 
				         with open(train_data_path, 'r') as f:
			
 
				             train_dataset = load_dataset("json", data_files={"train": train_data_path}, split="train")
			
 
				-            print("train_dataset",train_dataset)
			
 
				+            print("train_dataset -->\n",train_dataset)
			
 
				         return train_dataset
			
 
				 
			
 
				     def train(self, model, tokenizer, train_dataset):
			
@@ -140,9 +140,10 @@ class ModelTrainer:
 
				                 self.strict_format_reward_func, # 基于严格格式的奖励函数。
			
 
				                 self.int_reward_func,  # 整数奖励函数。
			
 
				                 self.correctness_reward_func, # 基于输出正确性的奖励函数
			
 
				-                self.semantic_correctness_reward_func, # 语义正确性奖励函数
			
 
				-                self.reasoning_quality_reward_func,  # 推理质量奖励函数
			
 
				-                self.combined_reward_func,  # combined_reward_func
			
 
				+                ###
			
 
				+                # self.semantic_correctness_reward_func, # 语义正确性奖励函数
			
 
				+                # self.reasoning_quality_reward_func,  # 推理质量奖励函数
			
 
				+                # self.combined_reward_func,  # combined_reward_func
			
 
				             ],   # 这是一个奖励函数的列表，决定了模型输出的好坏。在GRPO训练中，奖励函数通常用来评估模型输出的质量。
			
 
				             args=training_args, # 定义的训练超参数。
			
 
				             train_dataset=train_dataset, # 训练数据集,