zhouyang.xie
|
1a610f237b
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
7196266feb
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
6b7ea96c64
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
4586925aa3
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
716956f677
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
2951868eb5
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
ebbaf5494a
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
c8e0ee83b0
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
9fa7a6263a
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
b4c422b4be
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
541bec600c
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
001d3b3965
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
3e78f0431f
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
75edbd5bb9
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
ffaaf20313
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
a8baf58623
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
a0c6a060cf
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
a59d8b40a2
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
e8e87e7975
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
ce572ff677
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
40a04f3723
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
842e332caa
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
759d7db359
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
7982caa3ba
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
3 月之前 |
zhouyang.xie
|
39bf52bf4e
更换unsloth grpo的训练数据集并验证
|
3 月之前 |
zhouyang.xie
|
5b4e2ffb17
更换unsloth grpo的训练数据集并验证
|
3 月之前 |
zhouyang.xie
|
97fe68c387
更换unsloth grpo的训练数据集并验证
|
3 月之前 |
zhouyang.xie
|
efef4ac205
更换unsloth grpo的训练数据集并验证
|
3 月之前 |
zhouyang.xie
|
83590fcdc7
完善README.MD 增加vLLM说明
|
3 月之前 |
zhouyang.xie
|
87845c5b5d
修改train_model_grpo.py代码,验证GRPO训练模型,设置训练轮数 参数 num_train_epochs
|
3 月之前 |