zhouyang.xie 75edbd5bb9 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题 9 bulan lalu
..
unsloth_compiled_cache ca5fe63b52 完善README.MD说明 10 bulan lalu
__init__.py 7270ddb56d Initialize commit 10 bulan lalu
check_pytorch_cuda.py 7270ddb56d Initialize commit 10 bulan lalu
fine_tune_model.py 7270ddb56d Initialize commit 10 bulan lalu
generate_data.py 97fe68c387 更换unsloth grpo的训练数据集并验证 9 bulan lalu
inference.py d3713ffe46 验证GRPO 训练的模型推理 10 bulan lalu
main.obj 7270ddb56d Initialize commit 10 bulan lalu
model_downloader.py c5fc011955 完善代码及说明 10 bulan lalu
quantize_model.py c5fc011955 完善代码及说明 10 bulan lalu
train_model_grpo.py 75edbd5bb9 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题 9 bulan lalu
train_model_grpo_v2.py a0c6a060cf 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题 9 bulan lalu
train_model_sft.py 7982caa3ba 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题 9 bulan lalu