فهرست منبع

修改train_model_grpo.py代码,验证GRPO训练模型,设置训练轮数 参数 num_train_epochs

zhouyang.xie 3 ماه پیش
والد
کامیت
87845c5b5d
1فایلهای تغییر یافته به همراه1 افزوده شده و 1 حذف شده
  1. 1 1
      src/train_model_grpo.py

+ 1 - 1
src/train_model_grpo.py

@@ -189,7 +189,7 @@ class ModelTrainer:
             num_generations = 4, # 每次生成 4 个输出
             max_prompt_length = 256, # 输入提示的最大长度
             max_completion_length = 200, # 生成内容的最大长度
-            # num_train_epochs = 1, # Set to 1 for a full training run
+            num_train_epochs = 1, # Set to 1 for a full training run
             max_steps = 250,  # 250
             save_steps = 250, # 250
             max_grad_norm = 0.1,