Преглед изворни кода

修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题

zhouyang.xie пре 2 месеци
родитељ
комит
7409bac7d8
1 измењених фајлова са 1 додато и 0 уклоњено
  1. 1 0
      src/train_model_grpo_v1.2.py

+ 1 - 0
src/train_model_grpo_v1.2.py

@@ -244,6 +244,7 @@ class ModelTrainer:
         :return: 提取的答案
         """
         try:
+            print("text -> \n",text)
             if "<answer>" in text and "</answer>" in text:
                 answer = text.split("<answer>")[-1]
                 answer = answer.split("</answer>")[0]