Історія комітів

Автор SHA1 Опис Дата
  zhouyang.xie 98d070b8c5 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 4 місяців тому
  zhouyang.xie f9dc2bb16f 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 4 місяців тому
  zhouyang.xie 5710e9f30e 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 4 місяців тому
  zhouyang.xie e0482cfcbb 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型 4 місяців тому
  zhouyang.xie 526921091e 修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考 4 місяців тому
  zhouyang.xie ef6f70cbf7 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 4 місяців тому
  zhouyang.xie acebf42a2f 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 4 місяців тому
  zhouyang.xie 7409bac7d8 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 4 місяців тому
  zhouyang.xie 9ff6f0acd6 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 4 місяців тому
  zhouyang.xie dc546bc9b7 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 4 місяців тому