ソースを参照

换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型

zhouyang.xie 2 ヶ月 前
コミット
07c6892fac
1 ファイル変更2 行追加2 行削除
  1. 2 2
      conf/conf_train.yaml

+ 2 - 2
conf/conf_train.yaml

@@ -25,8 +25,8 @@ num_generations: 8  # 8 表示每次训练时生成的候选输出数量
 max_prompt_length: 256  # 256 模型输入的最大长度
 max_completion_length: 2048  # 200 模型输入(生成)的最大长度
 num_train_epochs: 3  # 训练轮数
-max_steps: 256  # 250 训练的最大步数
-save_steps: 256  # 250 保存模型的步数(多少步保存一次模型)
+max_steps: 16  # 250 训练的最大步数
+save_steps: 16  # 250 保存模型的步数(多少步保存一次模型)
 max_grad_norm: 0.1  # 梯度裁剪的最大阈值,防止梯度爆炸
 report_to: "none"  # 报告工具,报告内容如 Weights & Biases,设置为none 表不将训练结果报告到外部工具
 output_dir: "../models/outputs"  # 输出目录