zhouyang.xie/unsloth_deepseek

作者	SHA1 备注	提交日期
zhouyang.xie	0da8d87171 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	bdb109bdba 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	54948f9ffa 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	32b376dc0b 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	5d0fbd491c 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	98d070b8c5 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	f9dc2bb16f 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	5710e9f30e 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	e0482cfcbb 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	3f8e53e024 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	33112c8919 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	5f6552665d 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	2f61ec36fb 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	ebaa48bc16 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	a3bb9a917a 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	c485f38baf 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	4995352642 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	742973debf 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	5fd73818eb 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	d32c4de968 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	c413d5f5b4 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	4e9c5cbaef 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	40e0961e0f 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	13e76ccf11 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	5ea0c43503 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	8603d51a1c 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	9 月之前
zhouyang.xie	526921091e 修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考	9 月之前
zhouyang.xie	ef6f70cbf7 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题	9 月之前
zhouyang.xie	acebf42a2f 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题	9 月之前
zhouyang.xie	0f1c8812cb 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题	9 月之前

更新的提交更旧的提交

提交历史 查找

提交历史