Commit History

Author SHA1 Message Date
  zhouyang.xie 526921091e 修改train_model_grpo_v1.2.py 试图恢复模型训练自我思考 2 months ago
  zhouyang.xie 1021527859 完善README.MD - 增加 奖励函数的说明 2 months ago
  zhouyang.xie b704be1c79 完善README.MD - 增加 奖励函数的说明 2 months ago
  zhouyang.xie 73a5634a5e 遵循面向对象思想重构train_model_grpo.py 2 months ago
  zhouyang.xie a0c6a060cf 修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题 2 months ago
  zhouyang.xie 83590fcdc7 完善README.MD 增加vLLM说明 3 months ago
  zhouyang.xie e1158e5adf 完善README.MD文件 ,完善Unsloth 模型训练方案说明 3 months ago
  zhouyang.xie 20d99482e2 调整train_model_grpo.py 禁用vLLM 3 months ago
  zhouyang.xie 1cfcf6522b 调整train_model_grpo.py 提高vLLM 对VRAM的占用 3 months ago
  zhouyang.xie ca5fe63b52 完善README.MD说明 3 months ago
  zhouyang.xie b777163795 2025-3-5 18:29 README.MD大模型选型评估,训练、微调所需计算资源评估;完善训练数据集生成、训练、推理源程序; 3 months ago
  zhouyang.xie e2a3b8ab23 2025-3-5 README.MD大模型选型评估,训练、微调所需计算资源评估;完善训练数据集生成、训练、推理源程序; 3 months ago
  zhouyang.xie c5fc011955 完善代码及说明 3 months ago
  zhouyang.xie 7270ddb56d Initialize commit 3 months ago