9 月之前 · ef6f70cbf7
--- a/src/train_model_grpo_v1.2.py
+++ b/src/train_model_grpo_v1.2.py
@@ -131,13 +131,13 @@ class ModelTrainer:
 
				             model=model,
			
 
				             processing_class=tokenizer,  # 用于处理输入文本的分词器(tokenizer)
			
 
				             reward_funcs=[
			
 
				-                self.xmlcount_reward_func,  # XML 标签完整性奖励函数
			
 
				-                self.soft_format_reward_func,  # 软格式奖励函数
			
 
				-                self.strict_format_reward_func,  # 严格格式奖励函数
			
 
				-                self.int_reward_func,  # 整数奖励函数
			
 
				-                self.correctness_reward_func,  # 正确性奖励函数
			
 
				-                self.semantic_correctness_reward_func,  # 语义正确性奖励函数
			
 
				-                self.reasoning_quality_reward_func,  # 推理质量奖励函数
			
 
				+                # self.xmlcount_reward_func,  # XML 标签完整性奖励函数
			
 
				+                # self.soft_format_reward_func,  # 软格式奖励函数
			
 
				+                # self.strict_format_reward_func,  # 严格格式奖励函数
			
 
				+                # self.int_reward_func,  # 整数奖励函数
			
 
				+                # self.correctness_reward_func,  # 正确性奖励函数
			
 
				+                # self.semantic_correctness_reward_func,  # 语义正确性奖励函数
			
 
				+                # self.reasoning_quality_reward_func,  # 推理质量奖励函数
			
 
				                 self.combined_reward_func,  # 综合奖励函数
			
 
				             ],
			
 
				             args=training_args,  # 定义的训练超参数