Skip to content

学习日志

进度总览

  • 初始化学习站点
  • 完成架构概览主题
  • 完成引擎核心主题
  • 完成调度系统主题
  • 完成 KV 缓存与 PagedAttention 主题
  • 完成执行器与 Worker 主题
  • 完成模型库与算子层主题
  • 完成量化系统主题
  • 完成推测解码主题
  • 完成多模态处理主题
  • 完成分布式计算主题
  • 完成 API 服务与部署主题

Day 1 — 架构概览

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 2 — 引擎核心

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 3 — 调度系统

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 4 — KV 缓存与 PagedAttention

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 5 — 执行器与 Worker

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 6 — 模型库与算子层

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 7 — 量化系统

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 8 — 推测解码

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 9 — 多模态处理

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 10 — 分布式计算

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

Day 11 — API 服务与部署

日期状态

今日摘要

困惑与突破

  • 困惑
  • 突破

上游同步 — 2025-05-26

vllm 子模块:ff712f644 → d5cf7b4a2(247 commits)

主要变更

  1. Offline API 拆分LLM 类重构为 Mixin 组合架构(OfflineInferenceMixin + BeamSearchOfflineMixin + PoolingOfflineMixin
  2. Rust Frontend 集成RustFrontendProcessManager 管理 vllm-rs 二进制前端
  3. DP Supervisor:多端口数据并行管理器,为每个 DP rank 生成独立 server
  4. MooncakeStore 多组支持:支持混合注意力模型的多组 KV 缓存(如 DeepSeek V4 的 MLA + SWA)
  5. 文件系统分层:新增 FileSystemTierManager,纯 Python 磁盘后端 KV 缓存
  6. Elastic EP:弹性专家并行,在线扩展/缩减 EP 大小
  7. MoE Oracle 框架:统一后端选择(Triton、CUTLASS、FlashInfer B12x 等)
  8. Mamba 推测解码融合内核:消除 CPU-GPU 同步瓶颈
  9. GDN 子系统:Gated DeltaNet 注意力层(Kimi、OLMo、Qwen)
  10. DeepSeek V4 模型隔离:移出主仓库到 vllm/models/deepseek_v4/
  11. NVFP4 混合精度:新增 W4A16_NVFP4 量化模式
  12. Compressed Tensors 稀疏性移除:2:4 稀疏性支持已弃用

更新的笔记章节