Преглед на файлове

修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题

zhouyang.xie преди 3 месеца
родител
ревизия
7409bac7d8
променени са 1 файла, в които са добавени 1 реда и са изтрити 0 реда
  1. 1 0
      src/train_model_grpo_v1.2.py

+ 1 - 0
src/train_model_grpo_v1.2.py

@@ -244,6 +244,7 @@ class ModelTrainer:
         :return: 提取的答案
         """
         try:
+            print("text -> \n",text)
             if "<answer>" in text and "</answer>" in text:
                 answer = text.split("<answer>")[-1]
                 answer = answer.split("</answer>")[0]