|
@@ -80,7 +80,7 @@ class ModelTrainer:
|
|
|
"""
|
|
|
with open(train_data_path, 'r') as f:
|
|
|
train_dataset = load_dataset("json", data_files={"train": train_data_path}, split="train")
|
|
|
- print("train_dataset",train_dataset)
|
|
|
+ print("train_dataset -->\n",train_dataset)
|
|
|
return train_dataset
|
|
|
|
|
|
def train(self, model, tokenizer, train_dataset):
|
|
@@ -140,9 +140,10 @@ class ModelTrainer:
|
|
|
self.strict_format_reward_func, # 基于严格格式的奖励函数。
|
|
|
self.int_reward_func, # 整数奖励函数。
|
|
|
self.correctness_reward_func, # 基于输出正确性的奖励函数
|
|
|
- self.semantic_correctness_reward_func, # 语义正确性奖励函数
|
|
|
- self.reasoning_quality_reward_func, # 推理质量奖励函数
|
|
|
- self.combined_reward_func, # combined_reward_func
|
|
|
+ ###
|
|
|
+ # self.semantic_correctness_reward_func, # 语义正确性奖励函数
|
|
|
+ # self.reasoning_quality_reward_func, # 推理质量奖励函数
|
|
|
+ # self.combined_reward_func, # combined_reward_func
|
|
|
], # 这是一个奖励函数的列表,决定了模型输出的好坏。在GRPO训练中,奖励函数通常用来评估模型输出的质量。
|
|
|
args=training_args, # 定义的训练超参数。
|
|
|
train_dataset=train_dataset, # 训练数据集,
|