zhouyang.xie
|
0da8d87171
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
bdb109bdba
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
54948f9ffa
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
32b376dc0b
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
5d0fbd491c
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
98d070b8c5
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
f9dc2bb16f
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
5710e9f30e
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
e0482cfcbb
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
3f8e53e024
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
33112c8919
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
5f6552665d
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
2f61ec36fb
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
ebaa48bc16
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
a3bb9a917a
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
c485f38baf
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
4995352642
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
742973debf
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
5fd73818eb
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
d32c4de968
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
c413d5f5b4
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
4e9c5cbaef
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
40e0961e0f
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
13e76ccf11
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
5ea0c43503
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
8603d51a1c
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
2 ماه پیش |
zhouyang.xie
|
526921091e
修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考
|
2 ماه پیش |
zhouyang.xie
|
ef6f70cbf7
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
2 ماه پیش |
zhouyang.xie
|
acebf42a2f
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
2 ماه پیش |
zhouyang.xie
|
0f1c8812cb
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
2 ماه پیش |