Appearance
引擎核心
深入 vLLM V1 架构的 EngineCore、AsyncLLM 和 EngineCoreClient,理解引擎如何编排调度与执行。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | EngineCore 主循环、ZMQ IPC、请求处理流水线 |
| 练习 | 引擎行为分析、性能调优实验 |
| 代码走读 | core.py、async_llm.py、core_client.py 关键代码 |
核心概念
topics/engine-core/ 是 vLLM 的中央编排器,运行在独立进程中:
- 通过 ZMQ 与前端通信
- 每轮迭代调用 Scheduler 进行调度决策
- 通过 Executor 分发执行到 Worker
- 管理请求的完整生命周期
前置知识
- 架构概览
- ZMQ 进程间通信基础
- Python multiprocessing 基础
学习路径
读完本主题后,你将理解:
- EngineCore 的主循环如何驱动整个推理流程
- AsyncLLM 如何桥接异步 API 与 EngineCore
- EngineCoreClient 的同步/异步通信模式
- 输入处理(tokenize)和输出处理(detokenize)的流水线
→ 下一步:调度系统