瀏覽代碼

修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题

zhouyang.xie 2 月之前
父節點
當前提交
ef6f70cbf7
共有 1 個文件被更改,包括 7 次插入7 次删除
  1. 7 7
      src/train_model_grpo_v1.2.py

+ 7 - 7
src/train_model_grpo_v1.2.py

@@ -131,13 +131,13 @@ class ModelTrainer:
             model=model,
             processing_class=tokenizer,  # 用于处理输入文本的分词器(tokenizer)
             reward_funcs=[
-                self.xmlcount_reward_func,  # XML 标签完整性奖励函数
-                self.soft_format_reward_func,  # 软格式奖励函数
-                self.strict_format_reward_func,  # 严格格式奖励函数
-                self.int_reward_func,  # 整数奖励函数
-                self.correctness_reward_func,  # 正确性奖励函数
-                self.semantic_correctness_reward_func,  # 语义正确性奖励函数
-                self.reasoning_quality_reward_func,  # 推理质量奖励函数
+                # self.xmlcount_reward_func,  # XML 标签完整性奖励函数
+                # self.soft_format_reward_func,  # 软格式奖励函数
+                # self.strict_format_reward_func,  # 严格格式奖励函数
+                # self.int_reward_func,  # 整数奖励函数
+                # self.correctness_reward_func,  # 正确性奖励函数
+                # self.semantic_correctness_reward_func,  # 语义正确性奖励函数
+                # self.reasoning_quality_reward_func,  # 推理质量奖励函数
                 self.combined_reward_func,  # 综合奖励函数
             ],
             args=training_args,  # 定义的训练超参数