Skip to content

引擎核心

深入 vLLM V1 架构的 EngineCore、AsyncLLM 和 EngineCoreClient,理解引擎如何编排调度与执行。

涵盖内容

章节核心主题
概念EngineCore 主循环、ZMQ IPC、请求处理流水线
练习引擎行为分析、性能调优实验
代码走读core.py、async_llm.py、core_client.py 关键代码

核心概念

topics/engine-core/ 是 vLLM 的中央编排器,运行在独立进程中:

  • 通过 ZMQ 与前端通信
  • 每轮迭代调用 Scheduler 进行调度决策
  • 通过 Executor 分发执行到 Worker
  • 管理请求的完整生命周期

前置知识

  • 架构概览
  • ZMQ 进程间通信基础
  • Python multiprocessing 基础

学习路径

读完本主题后,你将理解:

  • EngineCore 的主循环如何驱动整个推理流程
  • AsyncLLM 如何桥接异步 API 与 EngineCore
  • EngineCoreClient 的同步/异步通信模式
  • 输入处理(tokenize)和输出处理(detokenize)的流水线

→ 下一步:调度系统