vor 9 Monaten · 6401c68303
--- a/conf/conf_train.yaml
+++ b/conf/conf_train.yaml
@@ -9,7 +9,7 @@ gpu_memory_utilization: 0.6 # GPU VRAM 占用率
 
				 
			
 
				 # 训练配置
			
 
				 use_vllm: False # use vLLM for fast inference!
			
 
				-learning_rate: 5e-6  # 学习率
			
 
				+learning_rate: 1e-5  # 5e-6 学习率
			
 
				 adam_beta1: 0.9  # Adam 优化器的 beta1 参数
			
 
				 adam_beta2: 0.99  # Adam 优化器的 beta2 参数
			
 
				 weight_decay: 0.1  # 权重衰减
			
--- a/src/train_model_grpo_v1.1.py
+++ b/src/train_model_grpo_v1.1.py
@@ -131,8 +131,8 @@ class ModelTrainer:
 
				                 self.xmlcount_reward_func,
			
 
				                 self.soft_format_reward_func,
			
 
				                 # self.strict_format_reward_func,
			
 
				-                # self.int_reward_func,
			
 
				-                # self.correctness_reward_func,
			
 
				+                self.int_reward_func,
			
 
				+                self.correctness_reward_func,
			
 
				                 self.strict_format_reward_func,
			
 
				                 self.semantic_correctness_reward_func,
			
 
				                 self.reasoning_quality_reward_func,
			
@@ -364,7 +364,7 @@ if __name__ == "__main__":
 
				 
			
 
				     # 使用文件初始化方法  2025-3-11 成功验证支持windows
			
 
				     init_method = f'env://'  # env://  # 文件路径需要所有进程都能访问
			
 
				-    # dist.init_process_group(backend=backend, init_method=init_method)
			
 
				+    dist.init_process_group(backend=backend, init_method=init_method)
			
 
				 
			
 
				     print(f"Initialized distributed training with backend: {backend}")