Appearance
量化系统
深入 vLLM 的量化框架:支持 30+ 量化方法,包括 FP8、GPTQ、AWQ、GGUF 等,以及量化与线性层的集成机制。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | 量化原理、量化方法分类、权重加载、kernel 调度 |
| 练习 | 量化效果分析、精度与性能权衡 |
| 代码走读 | quantization 框架、量化线性层、kernel 实现 |
核心概念
量化是降低模型精度以减少显存占用和加速推理的关键技术:
- 权重量化:将 FP16/BF16 权重压缩为 INT8/INT4/FP8
- 激活量化:部分方法支持激活值的动态量化
- 混合精度:不同层使用不同的量化策略
前置知识
- 模型库与算子层
- GPU 计算(FP16、INT8、FP8)基础概念
- 线性层和矩阵乘法的基本原理
学习路径
读完本主题后,你将理解:
- vLLM 的量化框架设计和扩展方式
- 30+ 量化方法的分类和适用场景
- 量化权重如何加载并与线性层集成
- 量化对推理性能和精度的影响
→ 下一步:推测解码