Browse Source

修改训练代码为train_model_grpo_v1.2.py 以解决训练输出未达预期问题

zhouyang.xie 2 tháng trước cách đây
mục cha
commit
9ff6f0acd6
1 tập tin đã thay đổi với 7 bổ sung3 xóa
  1. 7 3
      src/train_model_grpo_v1.2.py

+ 7 - 3
src/train_model_grpo_v1.2.py

@@ -244,9 +244,13 @@ class ModelTrainer:
         :return: 提取的答案
         """
         try:
-            answer = text.split("<answer>")[-1]
-            answer = answer.split("</answer>")[0]
-            return answer.strip()
+            if "<answer>" in text and "</answer>" in text:
+                answer = text.split("<answer>")[-1]
+                answer = answer.split("</answer>")[0]
+                return answer.strip()
+            else:
+                print("Warning: <answer> tag not found in response.")
+                return text.strip()  # 返回原始文本作为备用
         except Exception as e:
             print(f"Error extracting XML answer: {e}")
             return ""  # 返回空字符串或其他默认值