Skip to content

量化系统

深入 vLLM 的量化框架:支持 30+ 量化方法,包括 FP8、GPTQ、AWQ、GGUF 等,以及量化与线性层的集成机制。

涵盖内容

章节核心主题
概念量化原理、量化方法分类、权重加载、kernel 调度
练习量化效果分析、精度与性能权衡
代码走读quantization 框架、量化线性层、kernel 实现

核心概念

量化是降低模型精度以减少显存占用和加速推理的关键技术:

  • 权重量化:将 FP16/BF16 权重压缩为 INT8/INT4/FP8
  • 激活量化:部分方法支持激活值的动态量化
  • 混合精度:不同层使用不同的量化策略

前置知识

  • 模型库与算子层
  • GPU 计算(FP16、INT8、FP8)基础概念
  • 线性层和矩阵乘法的基本原理

学习路径

读完本主题后,你将理解:

  • vLLM 的量化框架设计和扩展方式
  • 30+ 量化方法的分类和适用场景
  • 量化权重如何加载并与线性层集成
  • 量化对推理性能和精度的影响

→ 下一步:推测解码