فهرست منبع

换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型

zhouyang.xie 4 ماه پیش
والد
کامیت
5d0fbd491c
1فایلهای تغییر یافته به همراه2 افزوده شده و 2 حذف شده
  1. 2 2
      conf/conf_train.yaml

+ 2 - 2
conf/conf_train.yaml

@@ -2,12 +2,12 @@
 
 # 模型配置
 model_name: "../models/pretrained/DeepSeek-R1-Distill-Qwen-1.5B"
-max_seq_length: 512  # 2048 单次会话的最大 token 长度
+max_seq_length: 2048  # 2048 单次会话的最大 token 长度
 dtype: "float16"  # 数据类型,可选 "float16" 或 "bfloat16"
 load_in_4bit: True  # 是否以4位精度加载模型
 fast_inference: False # Enable vLLM fast inference
 lora_rank: 128  # LoRA 的 rank 值 Choose any number>0!suggested 8,16,32,64,128
-gpu_memory_utilization: 0.85 # GPU VRAM 占用率
+gpu_memory_utilization: 0.7 # GPU VRAM 占用率
 
 # 训练配置
 use_vllm: False # use vLLM for fast inference!