conf_train.yaml 1.4 KB

1234567891011121314151617181920212223242526272829303132
  1. # 模型配置
  2. model_name: "../models/pretrained/DeepSeek-R1-Distill-Qwen-1.5B"
  3. max_seq_length: 6144 # 单次会话的最大 token 长度
  4. dtype: "float16" # 数据类型,可选 "float16" 或 "bfloat16"
  5. load_in_4bit: True # 是否以4位精度加载模型
  6. lora_rank: 64 # LoRA 的 rank 值
  7. gpu_memory_utilization: 0.6 # GPU VRAM 占用率
  8. # 训练配置
  9. learning_rate: 5e-6 # 学习率
  10. adam_beta1: 0.9 # Adam 优化器的 beta1 参数
  11. adam_beta2: 0.99 # Adam 优化器的 beta2 参数
  12. weight_decay: 0.1 # 权重衰减
  13. warmup_ratio: 0.1 # 学习率预热比例
  14. lr_scheduler_type: "cosine" # 学习率调度器类型
  15. optim: "adamw_8bit" # 优化器类型
  16. logging_steps: 1 # 日志记录步数
  17. per_device_train_batch_size: 1 # 每个设备的训练批次大小
  18. gradient_accumulation_steps: 1 # 梯度累积步数
  19. num_generations: 8 # 每次生成的输出个数
  20. max_prompt_length: 256 # 输入提示的最大长度
  21. max_completion_length: 200 # 生成内容的最大长度
  22. num_train_epochs: 1 # 训练轮数
  23. max_steps: 250 # 最大训练步数
  24. save_steps: 250 # 保存模型的步数
  25. max_grad_norm: 0.1 # 最大梯度范数
  26. report_to: "none" # 报告工具,如 Weights & Biases
  27. output_dir: "../models/outputs" # 输出目录
  28. # 数据配置
  29. train_data_path: "../data/processed/train.jsonl" # 训练数据路径
  30. save_path: "../models/trained/DeepSeek-R1-Distill-Qwen-1.5B-GRPO" # 模型保存路径