zhouyang.xie/unsloth_deepseek

Author	SHA1 Message	Date
zhouyang.xie	526921091e 修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考	2 months ago
zhouyang.xie	1021527859 完善README.MD - 增加奖励函数的说明	2 months ago
zhouyang.xie	b704be1c79 完善README.MD - 增加奖励函数的说明	2 months ago
zhouyang.xie	73a5634a5e 遵循面向对象思想重构train_model_grpo.py	2 months ago
zhouyang.xie	a0c6a060cf 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题	2 months ago
zhouyang.xie	83590fcdc7 完善README.MD 增加vLLM说明	3 months ago
zhouyang.xie	e1158e5adf 完善README.MD文件，完善Unsloth 模型训练方案说明	3 months ago
zhouyang.xie	20d99482e2 调整train_model_grpo.py 禁用vLLM	3 months ago
zhouyang.xie	1cfcf6522b 调整train_model_grpo.py 提高vLLM 对VRAM的占用	3 months ago
zhouyang.xie	ca5fe63b52 完善README.MD说明	3 months ago
zhouyang.xie	b777163795 2025-3-5 18:29 README.MD大模型选型评估，训练、微调所需计算资源评估；完善训练数据集生成、训练、推理源程序；	3 months ago
zhouyang.xie	e2a3b8ab23 2025-3-5 README.MD大模型选型评估，训练、微调所需计算资源评估；完善训练数据集生成、训练、推理源程序；	3 months ago
zhouyang.xie	c5fc011955 完善代码及说明	3 months ago
zhouyang.xie	7270ddb56d Initialize commit	3 months ago