Skip to content

推测解码

深入 vLLM 的 推测解码实现:通过快速草稿模型预测多个 token,再由目标模型验证,实现无损加速。

涵盖内容

章节核心主题
概念推测解码原理、N-gram、EAGLE、Medusa、Rejection Sampling
练习加速比分析、方法对比
代码走读spec_decode 目录关键代码

核心概念

Speculative Decoding 是一种加速自回归推理的技术:

  • 草稿阶段:快速模型(或启发式方法)生成 K 个候选 token
  • 验证阶段:目标模型并行验证所有候选 token
  • 接受/拒绝:使用 Rejection Sampling 决定接受哪些 token

前置知识

学习路径

读完本主题后,你将理解:

  • 推测解码为什么能实现无损加速
  • N-gram、EAGLE、Medusa 等不同方法的优缺点
  • Rejection Sampling 的数学原理和实现
  • 推测解码如何与 Continuous Batching 结合

→ 下一步:多模态处理