zhouyang.xie
|
98d070b8c5
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
4 місяців тому |
zhouyang.xie
|
f9dc2bb16f
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
4 місяців тому |
zhouyang.xie
|
5710e9f30e
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
4 місяців тому |
zhouyang.xie
|
e0482cfcbb
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
4 місяців тому |
zhouyang.xie
|
526921091e
修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考
|
4 місяців тому |
zhouyang.xie
|
ef6f70cbf7
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
4 місяців тому |
zhouyang.xie
|
acebf42a2f
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
4 місяців тому |
zhouyang.xie
|
7409bac7d8
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
4 місяців тому |
zhouyang.xie
|
9ff6f0acd6
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
4 місяців тому |
zhouyang.xie
|
dc546bc9b7
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
4 місяців тому |