.. |
dataset_info.json
|
4995352642
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
4 månader sedan |
gsm8k-test.arrow
|
4995352642
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
4 månader sedan |
gsm8k-train.arrow
|
4995352642
换用github jwjohns/unsloth-GRPO-qwen2.5 验证GRPO训练模型
|
4 månader sedan |