Appearance
高吞吐、低延迟的 LLM 推理与服务引擎源码学习
类似操作系统虚拟内存的分页 KV 缓存管理,实现高效显存利用与共享
连续批处理调度,动态插入新请求、移除已完成请求,最大化 GPU 利用率
支持张量并行、流水线并行、专家并行、数据并行等多种分布式策略
覆盖 LLaMA、Qwen、DeepSeek、Gemma、Mixtral 等主流大语言模型
支持 FP8、GPTQ、AWQ、GGUF 等 30+ 量化方法,EAGLE/Medusa 推测解码
开箱即用的 OpenAI 兼容服务,支持 Chat/Completion/Embedding/Responses 接口