vllmvllm 学习笔记

高吞吐、低延迟的 LLM 推理与服务引擎源码学习

PagedAttention

类似操作系统虚拟内存的分页 KV 缓存管理，实现高效显存利用与共享

连续批处理调度，动态插入新请求、移除已完成请求，最大化 GPU 利用率

支持张量并行、流水线并行、专家并行、数据并行等多种分布式策略

覆盖 LLaMA、Qwen、DeepSeek、Gemma、Mixtral 等主流大语言模型

支持 FP8、GPTQ、AWQ、GGUF 等 30+ 量化方法，EAGLE/Medusa 推测解码

开箱即用的 OpenAI 兼容服务，支持 Chat/Completion/Embedding/Responses 接口