KV缓存与PagedAttention

深入理解 vLLM 的核心创新：PagedAttention 分页 KV 缓存管理，以及相关的 KV cache 块分配、前缀缓存和 KV 缓存卸载。

涵盖内容

章节	核心主题
概念	PagedAttention 原理、块管理、前缀缓存、KV 卸载
练习	块分配模拟、前缀缓存分析
代码走读	KVCacheManager、BlockPool、kv_cache_utils 关键代码

Paged Attention 是 vLLM 的核心创新，借鉴操作系统虚拟内存的分页思想管理 KV Cache：

读完本主题后，你将理解：