Appearance
调度系统
深入理解 vLLM 的连续批处理调度器,它是系统的大脑,决定每轮迭代中请求的 prefill、decode 和 preemption 策略。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | Continuous Batching、Chunked Prefill、Preemption、优先级 |
| 练习 | 调度行为模拟、参数调优 |
| 代码走读 | scheduler.py 关键代码分析 |
核心概念
调度器 是 vLLM 的核心决策组件,每轮迭代决定:
- 哪些新请求开始 chunked prefill
- 哪些请求继续 decode
- 是否需要 preemption(抢占)以释放显存
- KV 缓存块的分配与回收
前置知识
- 引擎核心
- Paged Attention — 分页 KV 缓存的基本原理
- Continuous Batching — 连续批处理的概念
学习路径
读完本主题后,你将理解:
- 连续批处理如何最大化 GPU 利用率
- Chunked Prefill 如何平衡首 token 延迟和吞吐量
- Preemption 策略如何在显存压力下保持系统稳定
- 调度器如何与 KVCacheManager 协同管理缓存块
→ 下一步:KV缓存与PagedAttention