浏览代码

换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型

zhouyang.xie 3 月之前
父节点
当前提交
54948f9ffa
共有 1 个文件被更改,包括 1 次插入1 次删除
  1. 1 1
      conf/conf_train.yaml

+ 1 - 1
conf/conf_train.yaml

@@ -2,7 +2,7 @@
 
 # 模型配置
 model_name: "../models/pretrained/DeepSeek-R1-Distill-Qwen-1.5B"
-max_seq_length: 6144  # 2048 单次会话的最大 token 长度
+max_seq_length: 8192  # 2048 单次会话的最大 token 长度
 dtype: "float16"  # 数据类型,可选 "float16" 或 "bfloat16"
 load_in_4bit: True  # 是否以4位精度加载模型
 fast_inference: False # Enable vLLM fast inference