Appearance
架构概览
vLLM 的整体架构设计:从入口层到引擎核心、调度器、执行器、模型层的分层结构,理解请求如何在系统中流转。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | 分层架构、核心组件、数据流 |
| 练习 | 架构图绘制、组件交互分析 |
| 代码走读 | 入口点、配置系统、模块组织 |
核心概念
vLLM 采用分层架构设计,自上而下分为:
- 入口层(Entrypoints):CLI、OpenAI API、离线 LLM 类等用户接口
- 引擎层(Engine):topics/engine-core/ 作为中央编排器,管理调度和执行
- 调度层(Scheduler):决定每轮迭代中哪些请求进行 prefill、decode 或 preemption
- 执行层(Executor/Worker):GPU/CPU/XPU Worker,负责模型加载和前向传播
- 模型层(Models):200+ 模型实现、注意力后端、量化方法
前置知识
- Python 异步编程基础
- GPU 计算基本概念(CUDA、显存管理)
- Transformer 架构基本原理
学习路径
读完本主题后,你将理解:
- vLLM 的整体分层架构和模块组织
- 一个推理请求从提交到返回结果的完整生命周期
- 核心组件之间的通信机制(ZMQ IPC、进程间协调)
- V1 架构相较于旧版的设计改进
→ 下一步:引擎核心