Skip to content

执行器与Worker

深入 vLLM 的执行层:Executor 如何调度 Worker,GPU Worker 和 ModelRunner 如何管理模型加载、前向传播和 CUDA Graph

涵盖内容

章节核心主题
概念Executor 模式、Worker 生命周期、ModelRunner、CUDA Graph
练习Worker 初始化流程、CUDA Graph 分析
代码走读executor、worker、model_runner 关键代码

核心概念

执行层是 vLLM 中直接与硬件交互的层次:

  • Executor:抽象执行接口,支持 MultiProc、Ray、UniProc 三种模式
  • Worker:管理单个设备的初始化、模型加载、推理执行
  • ModelRunner:执行模型前向传播,管理 CUDA Graph、LoRA、推测解码

前置知识

学习路径

读完本主题后,你将理解:

  • Executor 如何选择和创建合适的 Worker
  • GPU Worker 的初始化和模型加载流程
  • ModelRunner 如何执行前向传播并管理批处理
  • CUDA Graph 如何加速 decode 阶段

→ 下一步:模型库与算子层