Skip to content

API服务与部署

深入 vLLM 的服务层:OpenAI 兼容 API、离线推理、部署最佳实践和性能调优。

涵盖内容

章节核心主题
概念OpenAI API、离线推理、中间件、性能调优
练习API 使用、部署配置、基准测试
代码走读entrypoints 目录关键代码

核心概念

vLLM 提供多种使用方式:

  • 在线服务:OpenAI 兼容的 API 服务器(vllm serve
  • 离线推理LLM 类的同步批处理接口
  • 嵌入服务:Embedding/Classification 的在线和离线接口
  • 其他协议:gRPC、Anthropic Messages API

前置知识

学习路径

读完本主题后,你将理解:

  • OpenAI 兼容 API 的完整接口和使用方式
  • 离线 LLM 类的批处理推理接口
  • API 服务器的中间件和性能配置
  • 生产部署的最佳实践

→ 恭喜完成所有主题!回顾:知识地图