推测解码

深入 vLLM 的推测解码实现：通过快速草稿模型预测多个 token，再由目标模型验证，实现无损加速。

涵盖内容

章节	核心主题
概念	推测解码原理、N-gram、EAGLE、Medusa、Rejection Sampling
练习	加速比分析、方法对比
代码走读	spec_decode 目录关键代码

Speculative Decoding 是一种加速自回归推理的技术：

读完本主题后，你将理解：

→ 下一步：多模态处理