9 hónapja · 1021527859
--- a/README.MD
+++ b/README.MD
@@ -317,11 +317,11 @@ vLLM 是一个**专为大语言模型推理设计的高性能、内存高效的
 
				 
			
 
				 在大语言模型（LLM）的训练过程中，奖励函数在强化学习（RL）阶段起着关键作用。以下是对您的问题的详细解答：
			
 
				 
			
 
				-### 奖励函数
			
 
				+### 奖励函数（待进一步认知）
			
 
				 
			
 
				 奖励函数主要有以下几类：
			
 
				 
			
 
				-- **人类反馈奖励函数（Human Feedback Rewards）：** 通过收集人类评估者对模型输出的反馈，将其转化为数值奖励信号。这种方法能够引导模型生成更符合人类期望的内容。 citeturn0search4
			
 
				+- **人类反馈奖励函数（Human Feedback Rewards）：** 通过收集人类评估者对模型输出的反馈，将其转化为数值奖励信号。这种方法能够引导模型生成更符合人类期望的内容。 
			
 
				 
			
 
				 - **自动化奖励函数（Automated Rewards）：** 利用自动化指标，如生成文本的流畅度、一致性等，对模型输出进行评估。这类奖励函数减少了对人工反馈的依赖，但可能无法完全捕捉人类的主观评价。
			
 
				 
			
@@ -722,7 +722,8 @@ Tiny-R1-32B
 
				 |                | <tr><td>
			
 
				 CPU： 32 核以上，主频 ≥ 2.5 GHz，L3 缓存 ≥ 128 MB;
			
 
				 内存：DDR4 或 DDR5，≥ 256 GB，速度 ≥ 3200 MHz，≥ 8 通道；
			
 
				-GPU：VRAM≥ 96 GB  ( 76 GB)；硬盘：NVMe SSD，≥ 8 TB，读取速度 ≥ 3.5 GB/s；
			
 
				+GPU：VRAM≥ 96 GB  ( 76 GB)；
			
 
				+硬盘：NVMe SSD，≥ 8 TB，读取速度 ≥ 3.5 GB/s；
			
 
				 网络： ≥ 10 GbE带宽；</td></tr>    |
			
 
				 |                | </table>       |
			
 
				 | 70B(Billion)       | <table>       |
			
--- a/src/generate_data.py
+++ b/src/generate_data.py
@@ -35,7 +35,7 @@ class DataGenerator:
 
				                 "answer":   "".join([case_data[2],"\n",case_data[3],"\n",case_data[4]]),
			
 
				                 "prompt": [
			
 
				                     {
			
 
				-                        "content": "\nRespond in the following format:\n<thinking>\n...\n</thinking>\n<answer>\n...\n</answer>\n",
			
 
				+                        "content": "\nRespond in the following format:\n<think>\n...\n</think>\n<answer>\n...\n</answer>\n",
			
 
				                         "role": "system"
			
 
				                     },
			
 
				                     {
			
--- a/src/train_model_grpo_v1.1.py
+++ b/src/train_model_grpo_v1.1.py
@@ -252,7 +252,7 @@ class ModelTrainer:
 
				         responses = [completion[0]["content"] for completion in completions]
			
 
				         scores = []
			
 
				         for response in responses:
			
 
				-            reasoning_match = re.search(r"<thinking>\n(.+?)\n</thinking>", response, re.DOTALL)
			
 
				+            reasoning_match = re.search(r"<think>\n(.+?)\n</think>", response, re.DOTALL)
			
 
				             if reasoning_match:
			
 
				                 reasoning_content = reasoning_match.group(1).strip()
			
 
				                 # 简单检查推理内容是否包含关键词
			
@@ -283,9 +283,9 @@ class ModelTrainer:
 
				         :return: XML 标签的完整性得分
			
 
				         """
			
 
				         count = 0.0
			
 
				-        if text.count("<thinking>\n") == 1:
			
 
				+        if text.count("<think>\n") == 1:
			
 
				             count += 0.125
			
 
				-        if text.count("\n</thinking>\n") == 1:
			
 
				+        if text.count("\n</think>\n") == 1:
			
 
				             count += 0.125
			
 
				         if text.count("\n<answer>\n") == 1:
			
 
				             count += 0.125
			
@@ -312,7 +312,7 @@ class ModelTrainer:
 
				         :param completions: 模型生成的补全内容
			
 
				         :return: 符合软格式要求的得分列表
			
 
				         """
			
 
				-        pattern = r"<thinking>.*?</thinking>\s*<answer>.*?</answer>"
			
 
				+        pattern = r"<think>.*?</think>\s*<answer>.*?</answer>"
			
 
				         responses = [completion[0]["content"] for completion in completions]
			
 
				         matches = [re.match(pattern, r) for r in responses]
			
 
				         return [0.5 if match else 0.0 for match in matches]
			
@@ -324,7 +324,7 @@ class ModelTrainer:
 
				         :param completions: 模型生成的补全内容
			
 
				         :return: 符合严格格式要求的得分列表
			
 
				         """
			
 
				-        pattern = r"^<thinking>\n(.+?)\n</thinking>\n<answer>\n(.+?)\n</answer>\n$"
			
 
				+        pattern = r"^<think>\n(.+?)\n</think>\n<answer>\n(.+?)\n</answer>\n$"
			
 
				         responses = [completion[0]["content"] for completion in completions]
			
 
				         scores = []
			
 
				         for response in responses:
			
--- a/大模型应用预研需求-大生科技.docx
+++ b/大模型应用预研需求-大生科技.docx
--- a/大模型应用预研需求.MD
+++ b/大模型应用预研需求.MD
@@ -0,0 +1,29 @@
 
				+# 风力发电机组的人工智能大模型应用
			
 
				+面向电力行业的新能源发电领域，针对风力发电机组的发电效能、可靠性、安全性方面，开发解决方案及产品。
			
 
				+探索利用人工智能大模型（大语言或多模态模型）技术，应用于风力发电业务，例如：建设相应知识库、评估机组安全、识别机组发电性能异常、诊断机组故障、评估机组健康。
			
 
				+基于国产化服务器私有部署，25人以内的并发在线使用大模型推理。
			
 
				+
			
 
				+## 基础大模型选型及推荐
			
 
				+选型标准：
			
 
				+开源免费的大模型，无版权、使用的纠纷风险；
			
 
				+选择满足业务需求的参数量适中、各项测评分值排名前5的大模型；
			
 
				+
			
 
				+## 大模型训练、适配计算资源及经济成本
			
 
				+
			
 
				+### 分布式训练方法
			
 
				+针对多计算节点、单计算节点多卡（GPU或NPU）的复杂场景，兼容单计算节点（无卡）场景的，分布式训练、参数精度量化方法。
			
 
				+
			
 
				+
			
 
				+### 适配计算资源评估
			
 
				+期望：大模型训练、推理所需计算资源的CPU、内存、GPU或NPU，占用率峰值最高达95%。
			
 
				+计算资源评估方法及合理性介绍
			
 
				+#### 训练适配计算资源评估及推荐
			
 
				+
			
 
				+
			
 
				+#### 推理适配计算资源评估及推荐
			
 
				+
			
 
				+
			
 
				+### 经济成本评估
			
 
				+
			
 
				+
			
 
				+## 需求外的相关服务介绍