调度系统

深入理解 vLLM 的连续批处理调度器，它是系统的大脑，决定每轮迭代中请求的 prefill、decode 和 preemption 策略。

涵盖内容

章节	核心主题
概念	Continuous Batching、Chunked Prefill、Preemption、优先级
练习	调度行为模拟、参数调优
代码走读	scheduler.py 关键代码分析

核心概念

调度器是 vLLM 的核心决策组件，每轮迭代决定：

哪些新请求开始 chunked prefill
哪些请求继续 decode
是否需要 preemption（抢占）以释放显存
KV 缓存块的分配与回收

前置知识

引擎核心
Paged Attention — 分页 KV 缓存的基本原理
Continuous Batching — 连续批处理的概念

学习路径

读完本主题后，你将理解：

连续批处理如何最大化 GPU 利用率
Chunked Prefill 如何平衡首 token 延迟和吞吐量
Preemption 策略如何在显存压力下保持系统稳定
调度器如何与 KVCacheManager 协同管理缓存块

→ 下一步：KV缓存与PagedAttention

反向链接