zhouyang.xie/unsloth_deepseek

Аутор	SHA1 Порука	Датум
zhouyang.xie	7b5779cba9 换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型	пре 2 месеци
zhouyang.xie	73a5634a5e 遵循面向对象思想重构train_model_grpo.py	пре 2 месеци
zhouyang.xie	9fa7a6263a 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题	пре 2 месеци
zhouyang.xie	b4c422b4be 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题	пре 2 месеци
zhouyang.xie	d3713ffe46 验证GRPO 训练的模型推理	пре 3 месеци
zhouyang.xie	e2a3b8ab23 2025-3-5 README.MD大模型选型评估，训练、微调所需计算资源评估；完善训练数据集生成、训练、推理源程序；	пре 3 месеци
zhouyang.xie	7270ddb56d Initialize commit	пре 3 месеци