Skip to content

架构概览

vLLM 的整体架构设计:从入口层到引擎核心、调度器、执行器、模型层的分层结构,理解请求如何在系统中流转。

涵盖内容

章节核心主题
概念分层架构、核心组件、数据流
练习架构图绘制、组件交互分析
代码走读入口点、配置系统、模块组织

核心概念

vLLM 采用分层架构设计,自上而下分为:

  • 入口层(Entrypoints):CLI、OpenAI API、离线 LLM 类等用户接口
  • 引擎层(Engine):topics/engine-core/ 作为中央编排器,管理调度和执行
  • 调度层(Scheduler):决定每轮迭代中哪些请求进行 prefill、decode 或 preemption
  • 执行层(Executor/Worker):GPU/CPU/XPU Worker,负责模型加载和前向传播
  • 模型层(Models):200+ 模型实现、注意力后端、量化方法

前置知识

  • Python 异步编程基础
  • GPU 计算基本概念(CUDA、显存管理)
  • Transformer 架构基本原理

学习路径

读完本主题后,你将理解:

  • vLLM 的整体分层架构和模块组织
  • 一个推理请求从提交到返回结果的完整生命周期
  • 核心组件之间的通信机制(ZMQ IPC、进程间协调)
  • V1 架构相较于旧版的设计改进

→ 下一步:引擎核心