před 9 měsíci · b704be1c79
--- a/README.MD
+++ b/README.MD
@@ -315,6 +315,31 @@ vllm基于PyTorch、transformers、xformers、Ray、fastapi、triton、sentencep
 
				 **总结**：  
			
 
				 vLLM 是一个**专为大语言模型推理设计的高性能、内存高效的推理引擎**。其核心目标是**减少显存占用、提高推理吞吐量**，并与其他工具（如 Unsloth）结合，在实际应用中能够大幅缩短推理响应时间或在相同硬件上支持更大的上下文长度。
			
 
				 
			
 
				+在大语言模型（LLM）的训练过程中，奖励函数在强化学习（RL）阶段起着关键作用。以下是对您的问题的详细解答：
			
 
				+
			
 
				+### 奖励函数
			
 
				+
			
 
				+奖励函数主要有以下几类：
			
 
				+
			
 
				+- **人类反馈奖励函数（Human Feedback Rewards）：** 通过收集人类评估者对模型输出的反馈，将其转化为数值奖励信号。这种方法能够引导模型生成更符合人类期望的内容。 citeturn0search4
			
 
				+
			
 
				+- **自动化奖励函数（Automated Rewards）：** 利用自动化指标，如生成文本的流畅度、一致性等，对模型输出进行评估。这类奖励函数减少了对人工反馈的依赖，但可能无法完全捕捉人类的主观评价。
			
 
				+
			
 
				+- **环境交互奖励函数（Environment Interaction Rewards）：** 在模型与环境交互的过程中，根据模型的行为结果给予奖励或惩罚。这种方法常用于需要模型进行决策和行动的任务，如机器人控制等。
			
 
				+
			
 
				+**训练过程中是否必须使用奖励函数？**
			
 
				+
			
 
				+在传统的监督学习阶段，训练主要依赖于标注数据和损失函数，如交叉熵损失。然而，在强化学习阶段，模型通过与环境的交互来学习策略，此时奖励函数至关重要。奖励函数为模型提供反馈，指导其学习最优策略。因此，在强化学习阶段，使用奖励函数是必须的。
			
 
				+
			
 
				+**是否存在通用奖励函数？**
			
 
				+
			
 
				+目前，还没有一种通用的奖励函数能够适用于所有任务和场景。因为不同的任务具有不同的目标和评估标准，设计通用奖励函数面临挑战。例如，在人类反馈强化学习（RLHF）中，设计有效的奖励模型需要将人类的主观偏好转化为数字奖励信号，这一过程并不简单。 
			
 
				+
			
 
				+**是否需要定制开发奖励函数？**
			
 
				+
			
 
				+是的，为了使模型在特定任务上表现良好，通常需要定制开发奖励函数。定制的奖励函数能够更好地反映任务的特性和目标，确保模型学习到符合预期的行为。例如，在使用人类反馈进行强化学习时，需要根据任务的具体需求设计奖励模型，以准确传达用户的偏好和期望。
			
 
				+综上所述，奖励函数在大语言模型的训练中起着至关重要的作用。根据任务的不同，设计适当的奖励函数对于模型的成功训练和应用至关重要。
			
 
				+
			
 
				 
			
 
				 ## 架构
			
 
				     MoE（Mixture of Experts）架构