Appearance
API服务与部署
深入 vLLM 的服务层:OpenAI 兼容 API、离线推理、部署最佳实践和性能调优。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | OpenAI API、离线推理、中间件、性能调优 |
| 练习 | API 使用、部署配置、基准测试 |
| 代码走读 | entrypoints 目录关键代码 |
核心概念
vLLM 提供多种使用方式:
- 在线服务:OpenAI 兼容的 API 服务器(
vllm serve) - 离线推理:
LLM类的同步批处理接口 - 嵌入服务:Embedding/Classification 的在线和离线接口
- 其他协议:gRPC、Anthropic Messages API
前置知识
- 架构概览
- HTTP API 基础知识
- Docker 容器化基础
学习路径
读完本主题后,你将理解:
- OpenAI 兼容 API 的完整接口和使用方式
- 离线 LLM 类的批处理推理接口
- API 服务器的中间件和性能配置
- 生产部署的最佳实践
→ 恭喜完成所有主题!回顾:知识地图