Appearance
学习日志
进度总览
- 初始化学习站点
- 完成架构概览主题
- 完成引擎核心主题
- 完成调度系统主题
- 完成 KV 缓存与 PagedAttention 主题
- 完成执行器与 Worker 主题
- 完成模型库与算子层主题
- 完成量化系统主题
- 完成推测解码主题
- 完成多模态处理主题
- 完成分布式计算主题
- 完成 API 服务与部署主题
Day 1 — 架构概览
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 2 — 引擎核心
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 3 — 调度系统
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 4 — KV 缓存与 PagedAttention
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 5 — 执行器与 Worker
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 6 — 模型库与算子层
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 7 — 量化系统
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 8 — 推测解码
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 9 — 多模态处理
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 10 — 分布式计算
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
Day 11 — API 服务与部署
日期: 状态:
今日摘要
困惑与突破
- 困惑:
- 突破:
上游同步 — 2025-05-26
vllm 子模块:ff712f644 → d5cf7b4a2(247 commits)
主要变更
- Offline API 拆分:
LLM类重构为 Mixin 组合架构(OfflineInferenceMixin+BeamSearchOfflineMixin+PoolingOfflineMixin) - Rust Frontend 集成:
RustFrontendProcessManager管理vllm-rs二进制前端 - DP Supervisor:多端口数据并行管理器,为每个 DP rank 生成独立 server
- MooncakeStore 多组支持:支持混合注意力模型的多组 KV 缓存(如 DeepSeek V4 的 MLA + SWA)
- 文件系统分层:新增
FileSystemTierManager,纯 Python 磁盘后端 KV 缓存 - Elastic EP:弹性专家并行,在线扩展/缩减 EP 大小
- MoE Oracle 框架:统一后端选择(Triton、CUTLASS、FlashInfer B12x 等)
- Mamba 推测解码融合内核:消除 CPU-GPU 同步瓶颈
- GDN 子系统:Gated DeltaNet 注意力层(Kimi、OLMo、Qwen)
- DeepSeek V4 模型隔离:移出主仓库到
vllm/models/deepseek_v4/ - NVFP4 混合精度:新增 W4A16_NVFP4 量化模式
- Compressed Tensors 稀疏性移除:2:4 稀疏性支持已弃用
更新的笔记章节
- topics/architecture/concepts — 前端模式、源码结构
- topics/serving/concepts — Rust Frontend、DP Supervisor、Mixin 架构
- topics/serving/code-walkthrough — LLM 类重构、前端管理
- topics/kv-cache/concepts — 文件系统分层、MooncakeStore 多组
- topics/scheduling/concepts — 异步抢占多帧丢弃、KV connector 延迟释放
- topics/model-layers/concepts — Elastic EP、MoE 后端矩阵、GDN、模型隔离
- topics/distributed/concepts — Elastic EP 生命周期、NIXL EP 重构
- topics/speculative-decoding/concepts — Mamba 融合内核、EAGLE-3 后规范
- topics/quantization/concepts — NVFP4、AWQ oracle 统一、稀疏性移除
- topics/executor-worker/concepts — CuMemAllocator 解耦
- topics/multimodal/concepts — OpenVLA、编码器 CUDA Graph
- kv-cache-offloading — 文件系统分层、MooncakeStore
- moe — Oracle 框架、Elastic EP