zhouyang.xie 0f1c8812cb 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 2 mesiacov pred
..
train.jsonl 0f1c8812cb 修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题 2 mesiacov pred
train_windturbine_old.jsonl 97fe68c387 更换unsloth grpo的训练数据集并验证 3 mesiacov pred
unified_chip2.jsonl 7270ddb56d Initialize commit 3 mesiacov pred