Appearance
执行器与Worker
深入 vLLM 的执行层:Executor 如何调度 Worker,GPU Worker 和 ModelRunner 如何管理模型加载、前向传播和 CUDA Graph。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | Executor 模式、Worker 生命周期、ModelRunner、CUDA Graph |
| 练习 | Worker 初始化流程、CUDA Graph 分析 |
| 代码走读 | executor、worker、model_runner 关键代码 |
核心概念
执行层是 vLLM 中直接与硬件交互的层次:
- Executor:抽象执行接口,支持 MultiProc、Ray、UniProc 三种模式
- Worker:管理单个设备的初始化、模型加载、推理执行
- ModelRunner:执行模型前向传播,管理 CUDA Graph、LoRA、推测解码
前置知识
学习路径
读完本主题后,你将理解:
- Executor 如何选择和创建合适的 Worker
- GPU Worker 的初始化和模型加载流程
- ModelRunner 如何执行前向传播并管理批处理
- CUDA Graph 如何加速 decode 阶段
→ 下一步:模型库与算子层