提交历史

作者 SHA1 备注 提交日期
  zhouyang.xie 0da8d87171 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie bdb109bdba 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 54948f9ffa 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 32b376dc0b 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 5d0fbd491c 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 98d070b8c5 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie f9dc2bb16f 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 5710e9f30e 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie e0482cfcbb 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 3f8e53e024 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 33112c8919 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 5f6552665d 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 2f61ec36fb 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie ebaa48bc16 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie a3bb9a917a 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie c485f38baf 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 4995352642 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 742973debf 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 5fd73818eb 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie d32c4de968 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie c413d5f5b4 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 4e9c5cbaef 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 40e0961e0f 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 13e76ccf11 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 5ea0c43503 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 8603d51a1c 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 2 月之前
  zhouyang.xie 526921091e 修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考 2 月之前
  zhouyang.xie ef6f70cbf7 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 2 月之前
  zhouyang.xie acebf42a2f 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 2 月之前
  zhouyang.xie 0f1c8812cb 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 2 月之前