瀏覽代碼

遵循面向对象思想重构train_model_grpo.py

zhouyang.xie 3 月之前
父節點
當前提交
6401c68303
共有 2 個文件被更改,包括 4 次插入4 次删除
  1. 1 1
      conf/conf_train.yaml
  2. 3 3
      src/train_model_grpo_v1.1.py

+ 1 - 1
conf/conf_train.yaml

@@ -9,7 +9,7 @@ gpu_memory_utilization: 0.6 # GPU VRAM 占用率
 
 # 训练配置
 use_vllm: False # use vLLM for fast inference!
-learning_rate: 5e-6  # 学习率
+learning_rate: 1e-5  # 5e-6 学习率
 adam_beta1: 0.9  # Adam 优化器的 beta1 参数
 adam_beta2: 0.99  # Adam 优化器的 beta2 参数
 weight_decay: 0.1  # 权重衰减

+ 3 - 3
src/train_model_grpo_v1.1.py

@@ -131,8 +131,8 @@ class ModelTrainer:
                 self.xmlcount_reward_func,
                 self.soft_format_reward_func,
                 # self.strict_format_reward_func,
-                # self.int_reward_func,
-                # self.correctness_reward_func,
+                self.int_reward_func,
+                self.correctness_reward_func,
                 self.strict_format_reward_func,
                 self.semantic_correctness_reward_func,
                 self.reasoning_quality_reward_func,
@@ -364,7 +364,7 @@ if __name__ == "__main__":
 
     # 使用文件初始化方法  2025-3-11 成功验证支持windows
     init_method = f'env://'  # env://  # 文件路径需要所有进程都能访问
-    # dist.init_process_group(backend=backend, init_method=init_method)
+    dist.init_process_group(backend=backend, init_method=init_method)
 
     print(f"Initialized distributed training with backend: {backend}")