ソースを参照

修改 风电机组数据集格式

zhouyang.xie 2 ヶ月 前
コミット
73be517bb5
1 ファイル変更5 行追加4 行削除
  1. 5 4
      src/train_model_grpo_v1.1.py

+ 5 - 4
src/train_model_grpo_v1.1.py

@@ -80,7 +80,7 @@ class ModelTrainer:
         """
         with open(train_data_path, 'r') as f:
             train_dataset = load_dataset("json", data_files={"train": train_data_path}, split="train")
-            print("train_dataset",train_dataset)
+            print("train_dataset -->\n",train_dataset)
         return train_dataset
 
     def train(self, model, tokenizer, train_dataset):
@@ -140,9 +140,10 @@ class ModelTrainer:
                 self.strict_format_reward_func, # 基于严格格式的奖励函数。
                 self.int_reward_func,  # 整数奖励函数。
                 self.correctness_reward_func, # 基于输出正确性的奖励函数
-                self.semantic_correctness_reward_func, # 语义正确性奖励函数
-                self.reasoning_quality_reward_func,  # 推理质量奖励函数
-                self.combined_reward_func,  # combined_reward_func
+                ###
+                # self.semantic_correctness_reward_func, # 语义正确性奖励函数
+                # self.reasoning_quality_reward_func,  # 推理质量奖励函数
+                # self.combined_reward_func,  # combined_reward_func
             ],   # 这是一个奖励函数的列表,决定了模型输出的好坏。在GRPO训练中,奖励函数通常用来评估模型输出的质量。
             args=training_args, # 定义的训练超参数。
             train_dataset=train_dataset, # 训练数据集,