Skip to content

vllm 学习笔记 — 知识地图

项目概览

vLLM 是一个高吞吐、低延迟的大语言模型推理和服务引擎。核心创新包括 PagedAttention(分页注意力机制)用于 KV 缓存的内存管理、连续批处理(Continuous Batching)以及广泛的硬件和模型支持(200+ 模型架构)。

架构全景

学习路径

知识索引

系统架构知识点

概念主题术语
请求流转(HTTP → Token → 输出)架构概览
VllmConfig 聚合配置架构概念
EngineCore 独立进程模型引擎核心
ZMQ IPC(DEALER/ROUTER)引擎概念
AsyncLLM 流式输出引擎核心
EngineCoreClient 同步/异步模式引擎概念

调度与缓存知识点

概念主题术语
Continuous Batching调度系统Continuous Batching
Preemption(抢占)策略调度概念
Chunked Prefill调度概念Chunked Prefill
PagedAttention 分页注意力KV缓存PagedAttention
KV Cache 块管理KV缓存KV Cache
前缀缓存(Prefix Caching)KV缓存概念Prefix Caching
KV Cache 卸载(Offloading)KV缓存概念KV Cache Offloading

执行与模型知识点

概念主题术语
MultiProcExecutor 多进程执行执行器
CUDA Graph 捕获与回放执行器概念CUDA Graph
显存分配与 profiling执行器概念
ModelRegistry 模型注册模型库
注意力后端(FlashAttention/FlashInfer/Triton)模型概念FlashAttention
MoE 混合专家模型概念Mixture of Experts
LoRA 适配器模型概念LoRA

量化与加速知识点

概念主题术语
FP8 / INT4 量化方法量化系统
GPTQ / AWQ 量化策略量化概念
Marlin 量化 kernel量化概念
推测解码(Speculative Decoding)推测解码Speculative Decoding
EAGLE / Medusa / N-gram 草稿模型推测概念
拒绝采样验证推测概念

多模态与分布式知识点

概念主题术语
Visual Token 编码多模态
编码器缓存策略多模态概念
多模态输入处理管线多模态概念
Tensor Parallelism分布式Tensor Parallelism
Pipeline Parallelism分布式Pipeline Parallelism
Expert Parallelism分布式概念
All-Reduce 通信量分析分布式概念

服务与部署知识点

概念主题术语
vllm serve 配置参数API服务
TTFT / 吞吐量调优服务概念
Prefix Caching 服务端配置服务概念Prefix Caching
结构化输出(JSON Schema)服务概念
torch.compile 编译优化服务概念torch.compile

学习进度

  • 架构概览
  • 引擎核心
  • 调度系统
  • KV缓存与PagedAttention
  • 执行器与Worker
  • 模型库与算子层
  • 量化系统
  • 推测解码
  • 多模态处理
  • 分布式计算
  • API服务与部署