Forráskód Böngészése

完善README.MD - 增加 奖励函数的说明

zhouyang.xie 2 hónapja
szülő
commit
1021527859

+ 4 - 3
README.MD

@@ -317,11 +317,11 @@ vLLM 是一个**专为大语言模型推理设计的高性能、内存高效的
 
 在大语言模型(LLM)的训练过程中,奖励函数在强化学习(RL)阶段起着关键作用。以下是对您的问题的详细解答:
 
-### 奖励函数
+### 奖励函数(待进一步认知)
 
 奖励函数主要有以下几类:
 
-- **人类反馈奖励函数(Human Feedback Rewards):** 通过收集人类评估者对模型输出的反馈,将其转化为数值奖励信号。这种方法能够引导模型生成更符合人类期望的内容。 citeturn0search4
+- **人类反馈奖励函数(Human Feedback Rewards):** 通过收集人类评估者对模型输出的反馈,将其转化为数值奖励信号。这种方法能够引导模型生成更符合人类期望的内容。 
 
 - **自动化奖励函数(Automated Rewards):** 利用自动化指标,如生成文本的流畅度、一致性等,对模型输出进行评估。这类奖励函数减少了对人工反馈的依赖,但可能无法完全捕捉人类的主观评价。
 
@@ -722,7 +722,8 @@ Tiny-R1-32B
 |                | <tr><td>
 CPU: 32 核以上,主频 ≥ 2.5 GHz,L3 缓存 ≥ 128 MB;
 内存:DDR4 或 DDR5,≥ 256 GB,速度 ≥ 3200 MHz,≥ 8 通道;
-GPU:VRAM≥ 96 GB  ( 76 GB);硬盘:NVMe SSD,≥ 8 TB,读取速度 ≥ 3.5 GB/s;
+GPU:VRAM≥ 96 GB  ( 76 GB);
+硬盘:NVMe SSD,≥ 8 TB,读取速度 ≥ 3.5 GB/s;
 网络: ≥ 10 GbE带宽;</td></tr>    |
 |                | </table>       |
 | 70B(Billion)       | <table>       |

+ 1 - 1
src/generate_data.py

@@ -35,7 +35,7 @@ class DataGenerator:
                 "answer":   "".join([case_data[2],"\n",case_data[3],"\n",case_data[4]]),
                 "prompt": [
                     {
-                        "content": "\nRespond in the following format:\n<thinking>\n...\n</thinking>\n<answer>\n...\n</answer>\n",
+                        "content": "\nRespond in the following format:\n<think>\n...\n</think>\n<answer>\n...\n</answer>\n",
                         "role": "system"
                     },
                     {

+ 5 - 5
src/train_model_grpo_v1.1.py

@@ -252,7 +252,7 @@ class ModelTrainer:
         responses = [completion[0]["content"] for completion in completions]
         scores = []
         for response in responses:
-            reasoning_match = re.search(r"<thinking>\n(.+?)\n</thinking>", response, re.DOTALL)
+            reasoning_match = re.search(r"<think>\n(.+?)\n</think>", response, re.DOTALL)
             if reasoning_match:
                 reasoning_content = reasoning_match.group(1).strip()
                 # 简单检查推理内容是否包含关键词
@@ -283,9 +283,9 @@ class ModelTrainer:
         :return: XML 标签的完整性得分
         """
         count = 0.0
-        if text.count("<thinking>\n") == 1:
+        if text.count("<think>\n") == 1:
             count += 0.125
-        if text.count("\n</thinking>\n") == 1:
+        if text.count("\n</think>\n") == 1:
             count += 0.125
         if text.count("\n<answer>\n") == 1:
             count += 0.125
@@ -312,7 +312,7 @@ class ModelTrainer:
         :param completions: 模型生成的补全内容
         :return: 符合软格式要求的得分列表
         """
-        pattern = r"<thinking>.*?</thinking>\s*<answer>.*?</answer>"
+        pattern = r"<think>.*?</think>\s*<answer>.*?</answer>"
         responses = [completion[0]["content"] for completion in completions]
         matches = [re.match(pattern, r) for r in responses]
         return [0.5 if match else 0.0 for match in matches]
@@ -324,7 +324,7 @@ class ModelTrainer:
         :param completions: 模型生成的补全内容
         :return: 符合严格格式要求的得分列表
         """
-        pattern = r"^<thinking>\n(.+?)\n</thinking>\n<answer>\n(.+?)\n</answer>\n$"
+        pattern = r"^<think>\n(.+?)\n</think>\n<answer>\n(.+?)\n</answer>\n$"
         responses = [completion[0]["content"] for completion in completions]
         scores = []
         for response in responses:

BIN
大模型应用预研需求-大生科技.docx


+ 29 - 0
大模型应用预研需求.MD

@@ -0,0 +1,29 @@
+# 风力发电机组的人工智能大模型应用
+面向电力行业的新能源发电领域,针对风力发电机组的发电效能、可靠性、安全性方面,开发解决方案及产品。
+探索利用人工智能大模型(大语言或多模态模型)技术,应用于风力发电业务,例如:建设相应知识库、评估机组安全、识别机组发电性能异常、诊断机组故障、评估机组健康。
+基于国产化服务器私有部署,25人以内的并发在线使用大模型推理。
+
+## 基础大模型选型及推荐
+选型标准:
+开源免费的大模型,无版权、使用的纠纷风险;
+选择满足业务需求的参数量适中、各项测评分值排名前5的大模型;
+
+## 大模型训练、适配计算资源及经济成本
+
+### 分布式训练方法
+针对多计算节点、单计算节点多卡(GPU或NPU)的复杂场景,兼容单计算节点(无卡)场景的,分布式训练、参数精度量化方法。
+
+
+### 适配计算资源评估
+期望:大模型训练、推理所需计算资源的CPU、内存、GPU或NPU,占用率峰值最高达95%。
+计算资源评估方法及合理性介绍
+#### 训练适配计算资源评估及推荐
+
+
+#### 推理适配计算资源评估及推荐
+
+
+### 经济成本评估
+
+
+## 需求外的相关服务介绍