zhouyang.xie/unsloth_deepseek @ 75edbd5bb96c6759d03ef4a1ca6ae2471da23f5c

zhouyang.xie 75edbd5bb9 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题		9 kuukautta sitten
..
unsloth_compiled_cache	ca5fe63b52 完善README.MD说明	9 kuukautta sitten
__init__.py	7270ddb56d Initialize commit	10 kuukautta sitten
check_pytorch_cuda.py	7270ddb56d Initialize commit	10 kuukautta sitten
fine_tune_model.py	7270ddb56d Initialize commit	10 kuukautta sitten
generate_data.py	97fe68c387 更换unsloth grpo的训练数据集并验证	9 kuukautta sitten
inference.py	d3713ffe46 验证GRPO 训练的模型推理	9 kuukautta sitten
main.obj	7270ddb56d Initialize commit	10 kuukautta sitten
model_downloader.py	c5fc011955 完善代码及说明	10 kuukautta sitten
quantize_model.py	c5fc011955 完善代码及说明	10 kuukautta sitten
train_model_grpo.py	75edbd5bb9 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题	9 kuukautta sitten
train_model_grpo_v2.py	a0c6a060cf 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题	9 kuukautta sitten
train_model_sft.py	7982caa3ba 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题	9 kuukautta sitten