zhouyang.xie 32b376dc0b 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 4 місяців тому
..
conf_train.yaml 32b376dc0b 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 4 місяців тому