zhouyang.xie
|
7b5779cba9
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
пре 2 месеци |
zhouyang.xie
|
73a5634a5e
遵循面向对象思想重构train_model_grpo.py
|
пре 2 месеци |
zhouyang.xie
|
9fa7a6263a
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
пре 2 месеци |
zhouyang.xie
|
b4c422b4be
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
пре 2 месеци |
zhouyang.xie
|
d3713ffe46
验证GRPO 训练的模型推理
|
пре 3 месеци |
zhouyang.xie
|
e2a3b8ab23
2025-3-5 README.MD大模型选型评估,训练、微调所需计算资源评估;完善训练数据集生成、训练、推理源程序;
|
пре 3 месеци |
zhouyang.xie
|
7270ddb56d
Initialize commit
|
пре 3 месеци |