소스 검색

修改 grpo v1.1.py源代码- correctness_reward_func函数

zhouyang.xie 3 달 전
부모
커밋
5a1c263040
1개의 변경된 파일1개의 추가작업 그리고 0개의 파일을 삭제
  1. 1 0
      src/train_model_grpo_v1.1.py

+ 1 - 0
src/train_model_grpo_v1.1.py

@@ -361,6 +361,7 @@ class ModelTrainer:
         :param answer: 正确答案
         :return: 补全内容正确的得分列表
         """
+        print("completions : \n ",completions)
         responses = [completion[0]['content'] for completion in completions]
         q = prompts[0][-1]['content']
         extracted_responses = [ModelTrainer.extract_xml_answer(r) for r in responses]