9 月之前 · 83590fcdc7
--- a/README.MD
+++ b/README.MD
@@ -278,6 +278,38 @@ DeepSeek-R1-Distill-Qwen-32B 是基于知识蒸馏技术对原模型（如 Qwen-
 
				 
			
 
				 这两种技术都能有效降低大模型微调的资源需求。
			
 
				 
			
 
				+### vLLM 
			
 
				+vLLM （其官方未给出正式英文全称）是一个专门针对大语言模型（Large Language Model，LLM）推理场景所设计的高性能推理引擎/库。它通过对显存管理、注意力机制（KV Cache）和张量计算进行优化，显著提高大模型在推理时的速度并减少显存占用。  
			
 
				+
			
 
				+---
			
 
				+
			
 
				+#### 1. vLLM 的背景和定位  
			
 
				+- **高性能推理引擎**：vLLM 专注于在 GPU 上运行大语言模型推理（Inference），相比常规 PyTorch、Hugging Face Transformers 等通用推理方案，vLLM 通过底层优化（如智能内存分配、定制的注意力计算等）提供了更高的吞吐量（tokens/s）。  
			
 
				+- **内存高效**：vLLM 在管理 Key/Value 缓存（KV Cache）和中间激活等方面进行了专门优化，通常能用更少的显存处理相同批量大小或更长的上下文长度，或者同样的显存下处理更多的请求。
			
 
				+
			
 
				+#### 2. 主要作用和特色
			
 
				+1. **提升推理速度**：  
			
 
				+   - vLLM 拥有高效的注意力实现，在多批次并行推理时能显著提高每秒生成的 token 数量。例如在 A100 40GB 上可以达成数千 token/s 的推理速度。
			
 
				+2. **减少显存使用**：  
			
 
				+   - 通过专门的内存管理（如分页式的 Key/Value 缓存，PagedAttention 等），能够在保持高速度的同时减少内存/显存的浪费。  
			
 
				+   - 对于有大量上下文或者对话多轮生成的场景，这种优化尤为重要。
			
 
				+3. **可与其它库集成**：  
			
 
				+   - 在一些微调框架（如 Unsloth）或其他工具中，可以把 vLLM 用作底层推理引擎，这样在微调的同时也能享受 vLLM 带来的高速推理能力（所谓 “finetune + inference 同时进行” 的场景）。
			
 
				+
			
 
				+#### 3. 与 Unsloth 的结合
			
 
				+- 在使用 **Unsloth** 进行微调（finetuning）时，选择开启 `fast_inference=True` 即可整合 vLLM 的推理特性。这样能在微调过程中快速测试模型生成的效果，而无需切换到单独的推理脚本。  
			
 
				+- Unsloth 还通过一些特别优化（如共享 GPU/CUDA 内存空间）来避免重复占用显存，实现边微调边推理的高效工作流程。
			
 
				+
			
 
				+#### 4. 使用场景和好处
			
 
				+- **长上下文对话**：在需要处理 8K、20K 甚至更多 token 的大段文本或多轮对话时，vLLM 的高效 KV 缓存管理能显著降低显存需求。  
			
 
				+- **服务端多路并发**：如果要部署大语言模型为 API 服务，需要同时处理多路用户请求，vLLM 可以通过异步批量合并等技术有效地提升整体吞吐量。  
			
 
				+- **实验验证**：在模型研发阶段，如果频繁需要测试不同长度输入、不同批量大小或不同模型结构，vLLM 能在一定程度上加快迭代速度。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+**总结**：  
			
 
				+vLLM 是一个**专为大语言模型推理设计的高性能、内存高效的推理引擎**。其核心目标是**减少显存占用、提高推理吞吐量**，并与其他工具（如 Unsloth）结合，在实际应用中能够大幅缩短推理响应时间或在相同硬件上支持更大的上下文长度。
			
 
				+
			
 
				 
			
 
				 ## 架构
			
 
				     MoE（Mixture of Experts）架构