模型库与算子层

深入 vLLM 的模型实现层：200+ 模型架构支持、可复用算子层、注意力机制实现和专家混合模型。

涵盖内容

章节	核心主题
概念	Model Registry、模型接口、注意力层、MoE
练习	添加新模型、自定义算子分析
代码走读	llama.py、attention 层、linear 层关键代码

核心概念

vLLM 的模型层包含两大组件：

模型库（model_executor/models/）：200+ 模型架构实现，每个文件对应一种或多种 HuggingFace 架构
算子层（model_executor/layers/）：可复用的神经网络层，包括注意力、线性层、量化、MoE 等

前置知识

执行器与Worker
Transformer 架构原理
PyTorch 模型编程

学习路径

读完本主题后，你将理解：

ModelRegistry 如何自动发现和注册模型
模型接口的 Mixin 设计（SupportsLoRA、SupportsMultiModal 等）
注意力层如何适配不同后端（Flash Attention、FlashInfer 等）
MoE 模型的 Fused MoE 实现

→ 下一步：量化系统

反向链接