Skip to content

调度系统

深入理解 vLLM 的连续批处理调度器,它是系统的大脑,决定每轮迭代中请求的 prefill、decode 和 preemption 策略。

涵盖内容

章节核心主题
概念Continuous Batching、Chunked Prefill、Preemption、优先级
练习调度行为模拟、参数调优
代码走读scheduler.py 关键代码分析

核心概念

调度器 是 vLLM 的核心决策组件,每轮迭代决定:

  • 哪些新请求开始 chunked prefill
  • 哪些请求继续 decode
  • 是否需要 preemption(抢占)以释放显存
  • KV 缓存块的分配与回收

前置知识

学习路径

读完本主题后,你将理解:

  • 连续批处理如何最大化 GPU 利用率
  • Chunked Prefill 如何平衡首 token 延迟和吞吐量
  • Preemption 策略如何在显存压力下保持系统稳定
  • 调度器如何与 KVCacheManager 协同管理缓存块

→ 下一步:KV缓存与PagedAttention