Skip to content

模型库与算子层

深入 vLLM 的模型实现层:200+ 模型架构支持、可复用算子层、注意力机制实现和 专家混合模型。

涵盖内容

章节核心主题
概念Model Registry、模型接口、注意力层、MoE
练习添加新模型、自定义算子分析
代码走读llama.py、attention 层、linear 层关键代码

核心概念

vLLM 的模型层包含两大组件:

  • 模型库model_executor/models/):200+ 模型架构实现,每个文件对应一种或多种 HuggingFace 架构
  • 算子层model_executor/layers/):可复用的神经网络层,包括注意力、线性层、量化、MoE 等

前置知识

学习路径

读完本主题后,你将理解:

  • ModelRegistry 如何自动发现和注册模型
  • 模型接口的 Mixin 设计(SupportsLoRA、SupportsMultiModal 等)
  • 注意力层如何适配不同后端(Flash Attention、FlashInfer 等)
  • MoE 模型的 Fused MoE 实现

→ 下一步:量化系统