zhouyang.xie
|
ebaa48bc16
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
a3bb9a917a
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
c485f38baf
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
4995352642
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
742973debf
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
5fd73818eb
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
d32c4de968
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
c413d5f5b4
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
4e9c5cbaef
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
40e0961e0f
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
13e76ccf11
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
5ea0c43503
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
8603d51a1c
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
преди 2 месеца |
zhouyang.xie
|
526921091e
修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考
|
преди 2 месеца |
zhouyang.xie
|
ef6f70cbf7
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
преди 2 месеца |
zhouyang.xie
|
acebf42a2f
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
преди 2 месеца |
zhouyang.xie
|
0f1c8812cb
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
преди 2 месеца |
zhouyang.xie
|
7409bac7d8
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
преди 2 месеца |
zhouyang.xie
|
f8443b3682
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
преди 2 месеца |
zhouyang.xie
|
12eacbadc0
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
преди 2 месеца |
zhouyang.xie
|
9ff6f0acd6
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
преди 2 месеца |
zhouyang.xie
|
dc546bc9b7
修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题
|
преди 2 месеца |
zhouyang.xie
|
73be517bb5
修改 风电机组数据集格式
|
преди 2 месеца |
zhouyang.xie
|
98ecc19bfb
修改 风电机组数据集格式
|
преди 2 месеца |
root
|
94f8ee853c
更新 风电机组数据集格式(还原至gsm8k数据集格式)
|
преди 2 месеца |
root
|
f8e2d2bfcd
更新 风电机组数据集格式(还原至gsm8k数据集格式)
|
преди 2 месеца |
zhouyang.xie
|
30a1a69274
修改 风电机组数据集格式
|
преди 2 месеца |
zhouyang.xie
|
948ec7eb5d
修改 风电机组数据集格式
|
преди 2 месеца |
zhouyang.xie
|
39ae535b0d
修改 风电机组数据集格式
|
преди 2 месеца |
zhouyang.xie
|
5a1c263040
修改 grpo v1.1.py源代码- correctness_reward_func函数
|
преди 2 месеца |