架构概览

vLLM 的整体架构设计：从入口层到引擎核心、调度器、执行器、模型层的分层结构，理解请求如何在系统中流转。

涵盖内容

章节	核心主题
概念	分层架构、核心组件、数据流
练习	架构图绘制、组件交互分析
代码走读	入口点、配置系统、模块组织

核心概念

vLLM 采用分层架构设计，自上而下分为：

入口层（Entrypoints）：CLI、OpenAI API、离线 LLM 类等用户接口
引擎层（Engine）：topics/engine-core/ 作为中央编排器，管理调度和执行
调度层（Scheduler）：决定每轮迭代中哪些请求进行 prefill、decode 或 preemption
执行层（Executor/Worker）：GPU/CPU/XPU Worker，负责模型加载和前向传播
模型层（Models）：200+ 模型实现、注意力后端、量化方法

前置知识

Python 异步编程基础
GPU 计算基本概念（CUDA、显存管理）
Transformer 架构基本原理

学习路径

读完本主题后，你将理解：

vLLM 的整体分层架构和模块组织
一个推理请求从提交到返回结果的完整生命周期
核心组件之间的通信机制（ZMQ IPC、进程间协调）
V1 架构相较于旧版的设计改进

→ 下一步：引擎核心

反向链接