zhouyang.xie/unsloth_deepseek

Автор	SHA1 Опис	Дата
zhouyang.xie	98d070b8c5 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	4 місяців тому
zhouyang.xie	f9dc2bb16f 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	4 місяців тому
zhouyang.xie	5710e9f30e 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	4 місяців тому
zhouyang.xie	e0482cfcbb 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	4 місяців тому
zhouyang.xie	526921091e 修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考	4 місяців тому
zhouyang.xie	ef6f70cbf7 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题	4 місяців тому
zhouyang.xie	acebf42a2f 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题	4 місяців тому
zhouyang.xie	7409bac7d8 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题	4 місяців тому
zhouyang.xie	9ff6f0acd6 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题	4 місяців тому
zhouyang.xie	dc546bc9b7 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题	4 місяців тому