Переглянути джерело

遵循面向对象思想重构train_model_grpo.py

zhouyang.xie 3 місяців тому
батько
коміт
d6429d6a79
1 змінених файлів з 32 додано та 0 видалено
  1. 32 0
      conf/conf_train.yaml

+ 32 - 0
conf/conf_train.yaml

@@ -0,0 +1,32 @@
+# 模型配置
+model_name: "../models/pretrained/DeepSeek-R1-Distill-Qwen-1.5B"
+max_seq_length: 6144  # 单次会话的最大 token 长度
+dtype: "float16"  # 数据类型,可选 "float16" 或 "bfloat16"
+load_in_4bit: True  # 是否以4位精度加载模型
+lora_rank: 64  # LoRA 的 rank 值
+gpu_memory_utilization: 0.6 # GPU VRAM 占用率
+
+# 训练配置
+learning_rate: 5e-6  # 学习率
+adam_beta1: 0.9  # Adam 优化器的 beta1 参数
+adam_beta2: 0.99  # Adam 优化器的 beta2 参数
+weight_decay: 0.1  # 权重衰减
+warmup_ratio: 0.1  # 学习率预热比例
+lr_scheduler_type: "cosine"  # 学习率调度器类型
+optim: "adamw_8bit"  # 优化器类型
+logging_steps: 1  # 日志记录步数
+per_device_train_batch_size: 1  # 每个设备的训练批次大小
+gradient_accumulation_steps: 1  # 梯度累积步数
+num_generations: 8  # 每次生成的输出个数
+max_prompt_length: 256  # 输入提示的最大长度
+max_completion_length: 200  # 生成内容的最大长度
+num_train_epochs: 1  # 训练轮数
+max_steps: 250  # 最大训练步数
+save_steps: 250  # 保存模型的步数
+max_grad_norm: 0.1  # 最大梯度范数
+report_to: "none"  # 报告工具,如 Weights & Biases
+output_dir: "../models/outputs"  # 输出目录
+
+# 数据配置
+train_data_path: "../data/processed/train.jsonl"  # 训练数据路径
+save_path: "../models/trained/DeepSeek-R1-Distill-Qwen-1.5B-GRPO"  # 模型保存路径