소스 검색

修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题

zhouyang.xie 4 달 전
부모
커밋
7409bac7d8
1개의 변경된 파일1개의 추가작업 그리고 0개의 파일을 삭제
  1. 1 0
      src/train_model_grpo_v1.2.py

+ 1 - 0
src/train_model_grpo_v1.2.py

@@ -244,6 +244,7 @@ class ModelTrainer:
         :return: 提取的答案
         """
         try:
+            print("text -> \n",text)
             if "<answer>" in text and "</answer>" in text:
                 answer = text.split("<answer>")[-1]
                 answer = answer.split("</answer>")[0]