量化系统

深入 vLLM 的量化框架：支持 30+ 量化方法，包括 FP8、GPTQ、AWQ、GGUF 等，以及量化与线性层的集成机制。

涵盖内容

章节	核心主题
概念	量化原理、量化方法分类、权重加载、kernel 调度
练习	量化效果分析、精度与性能权衡
代码走读	quantization 框架、量化线性层、kernel 实现

量化是降低模型精度以减少显存占用和加速推理的关键技术：

读完本主题后，你将理解：

→ 下一步：推测解码