zhouyang.xie
|
526921091e
修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考
|
2 ヶ月 前 |
zhouyang.xie
|
1021527859
完善README.MD - 增加 奖励函数的说明
|
2 ヶ月 前 |
zhouyang.xie
|
b704be1c79
完善README.MD - 增加 奖励函数的说明
|
2 ヶ月 前 |
zhouyang.xie
|
73a5634a5e
遵循面向对象思想重构train_model_grpo.py
|
2 ヶ月 前 |
zhouyang.xie
|
a0c6a060cf
修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题
|
2 ヶ月 前 |
zhouyang.xie
|
83590fcdc7
完善README.MD 增加vLLM说明
|
3 ヶ月 前 |
zhouyang.xie
|
e1158e5adf
完善README.MD文件 ,完善Unsloth 模型训练方案说明
|
3 ヶ月 前 |
zhouyang.xie
|
20d99482e2
调整train_model_grpo.py 禁用vLLM
|
3 ヶ月 前 |
zhouyang.xie
|
1cfcf6522b
调整train_model_grpo.py 提高vLLM 对VRAM的占用
|
3 ヶ月 前 |
zhouyang.xie
|
ca5fe63b52
完善README.MD说明
|
3 ヶ月 前 |
zhouyang.xie
|
b777163795
2025-3-5 18:29 README.MD大模型选型评估,训练、微调所需计算资源评估;完善训练数据集生成、训练、推理源程序;
|
3 ヶ月 前 |
zhouyang.xie
|
e2a3b8ab23
2025-3-5 README.MD大模型选型评估,训练、微调所需计算资源评估;完善训练数据集生成、训练、推理源程序;
|
3 ヶ月 前 |
zhouyang.xie
|
c5fc011955
完善代码及说明
|
3 ヶ月 前 |
zhouyang.xie
|
7270ddb56d
Initialize commit
|
3 ヶ月 前 |