Appearance
模型库与算子层
深入 vLLM 的模型实现层:200+ 模型架构支持、可复用算子层、注意力机制实现和 专家混合模型。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | Model Registry、模型接口、注意力层、MoE |
| 练习 | 添加新模型、自定义算子分析 |
| 代码走读 | llama.py、attention 层、linear 层关键代码 |
核心概念
vLLM 的模型层包含两大组件:
- 模型库(
model_executor/models/):200+ 模型架构实现,每个文件对应一种或多种 HuggingFace 架构 - 算子层(
model_executor/layers/):可复用的神经网络层,包括注意力、线性层、量化、MoE 等
前置知识
- 执行器与Worker
- Transformer 架构原理
- PyTorch 模型编程
学习路径
读完本主题后,你将理解:
- ModelRegistry 如何自动发现和注册模型
- 模型接口的 Mixin 设计(SupportsLoRA、SupportsMultiModal 等)
- 注意力层如何适配不同后端(Flash Attention、FlashInfer 等)
- MoE 模型的 Fused MoE 实现
→ 下一步:量化系统