架构概览 — 练习

练习 1：绘制请求流转图

根据你对架构的理解，绘制一个请求从 vllm serve 启动到返回第一个 token 的完整流程图。

参考答案

关键步骤：

阅读 vllm/config/vllm.py，回答以下问题：

参考答案

VllmConfig 是聚合配置，包含 model_config、parallel_config、scheduler_config、cache_config、compilation_config 等 30+ 子配置。依赖关系：cache_config 依赖 model_config（block_size 由模型头数决定），scheduler_config 依赖 cache_config（max_num_seqs 受缓存大小限制）。
ModelConfig 通过 architectures 字段匹配 ModelRegistry 中注册的模型类。每个 HuggingFace 模型配置中声明了 architectures，vLLM 以此为键查找对应实现。
ParallelConfig 定义了 tensor_parallel_size、pipeline_parallel_size 等。MultiProcExecutor 据此创建对应数量的 Worker 进程，每个 Worker 绑定到特定的 GPU。

分析 vLLM 的多进程模型：

参考答案

独立进程可以避免 Python GIL 对调度和推理的竞争。API 服务器处理网络 I/O 不影响 EngineCore 的调度循环。同时支持多前端（多个 API server）连接到同一个 EngineCore。
EngineCoreClient 使用 ZMQ 进行 IPC。支持两种模式：SYNC（同步调用）和 ASYNC（异步非阻塞）。通过 ZMQ 的 DEALER/ROUTER 模式实现请求-响应匹配。
Worker 不直接与 EngineCore 交互。EngineCore 通过 Executor 发送 SchedulerOutput 给 Worker，Worker 执行后返回 ModelOutput。Executor 负责进程间通信（pipe 或 Ray）。