|
@@ -131,13 +131,13 @@ class ModelTrainer:
|
|
|
model=model,
|
|
|
processing_class=tokenizer, # 用于处理输入文本的分词器(tokenizer)
|
|
|
reward_funcs=[
|
|
|
- self.xmlcount_reward_func, # XML 标签完整性奖励函数
|
|
|
- self.soft_format_reward_func, # 软格式奖励函数
|
|
|
- self.strict_format_reward_func, # 严格格式奖励函数
|
|
|
- self.int_reward_func, # 整数奖励函数
|
|
|
- self.correctness_reward_func, # 正确性奖励函数
|
|
|
- self.semantic_correctness_reward_func, # 语义正确性奖励函数
|
|
|
- self.reasoning_quality_reward_func, # 推理质量奖励函数
|
|
|
+ # self.xmlcount_reward_func, # XML 标签完整性奖励函数
|
|
|
+ # self.soft_format_reward_func, # 软格式奖励函数
|
|
|
+ # self.strict_format_reward_func, # 严格格式奖励函数
|
|
|
+ # self.int_reward_func, # 整数奖励函数
|
|
|
+ # self.correctness_reward_func, # 正确性奖励函数
|
|
|
+ # self.semantic_correctness_reward_func, # 语义正确性奖励函数
|
|
|
+ # self.reasoning_quality_reward_func, # 推理质量奖励函数
|
|
|
self.combined_reward_func, # 综合奖励函数
|
|
|
],
|
|
|
args=training_args, # 定义的训练超参数
|