zhouyang.xie
|
1021527859
完善README.MD - 增加 奖励函数的说明
|
2 月之前 |
zhouyang.xie
|
b704be1c79
完善README.MD - 增加 奖励函数的说明
|
2 月之前 |
zhouyang.xie
|
cfe49ef53e
遵循面向对象思想重构train_model_grpo_v1.1.py 去掉分布式及相应环境变量设置代码
|
2 月之前 |
zhouyang.xie
|
91bb641d42
遵循面向对象思想重构train_model_grpo_v1.1.py 去掉分布式及相应环境变量设置代码
|
2 月之前 |
zhouyang.xie
|
dff6b0d9c7
遵循面向对象思想重构train_model_grpo_v1.1.py 去掉分布式及相应环境变量设置代码
|
2 月之前 |
zhouyang.xie
|
1bef66edba
遵循面向对象思想重构train_model_grpo_v1.1.py 去掉分布式及相应环境变量设置代码
|
2 月之前 |
zhouyang.xie
|
73a5634a5e
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
6401c68303
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
a96f63805a
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
77168b22a2
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
c7b5cc14c5
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
6529570532
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
71cb307569
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
a656b45e84
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
4bb9924e00
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
d97b2ed3a6
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
cd5cc43486
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
95988ed459
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
8f30a3f1e1
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
3634ab78f0
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
93c55c7c93
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
e115acac83
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
5a35a32199
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 月之前 |
zhouyang.xie
|
994ac49f1f
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
2275fcf164
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
8d19984abd
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
55e15f38be
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
ad874737a9
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
d6429d6a79
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |
zhouyang.xie
|
2a20ead66c
遵循面向对象思想重构train_model_grpo.py
|
2 月之前 |