执行器与Worker

深入 vLLM 的执行层：Executor 如何调度 Worker，GPU Worker 和 ModelRunner 如何管理模型加载、前向传播和 CUDA Graph。

涵盖内容

章节	核心主题
概念	Executor 模式、Worker 生命周期、ModelRunner、CUDA Graph
练习	Worker 初始化流程、CUDA Graph 分析
代码走读	executor、worker、model_runner 关键代码

核心概念

执行层是 vLLM 中直接与硬件交互的层次：

Executor：抽象执行接口，支持 MultiProc、Ray、UniProc 三种模式
Worker：管理单个设备的初始化、模型加载、推理执行
ModelRunner：执行模型前向传播，管理 CUDA Graph、LoRA、推测解码

前置知识

引擎核心
调度系统
CUDA 编程基础概念

学习路径

读完本主题后，你将理解：

Executor 如何选择和创建合适的 Worker
GPU Worker 的初始化和模型加载流程
ModelRunner 如何执行前向传播并管理批处理
CUDA Graph 如何加速 decode 阶段

→ 下一步：模型库与算子层

反向链接