Appearance
推测解码
深入 vLLM 的 推测解码实现:通过快速草稿模型预测多个 token,再由目标模型验证,实现无损加速。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | 推测解码原理、N-gram、EAGLE、Medusa、Rejection Sampling |
| 练习 | 加速比分析、方法对比 |
| 代码走读 | spec_decode 目录关键代码 |
核心概念
Speculative Decoding 是一种加速自回归推理的技术:
- 草稿阶段:快速模型(或启发式方法)生成 K 个候选 token
- 验证阶段:目标模型并行验证所有候选 token
- 接受/拒绝:使用 Rejection Sampling 决定接受哪些 token
前置知识
- 模型库与算子层
- 自回归语言模型的基本原理
- 概率论基础(条件概率、采样)
学习路径
读完本主题后,你将理解:
- 推测解码为什么能实现无损加速
- N-gram、EAGLE、Medusa 等不同方法的优缺点
- Rejection Sampling 的数学原理和实现
- 推测解码如何与 Continuous Batching 结合
→ 下一步:多模态处理