Skip to content

分布式计算

深入 vLLM 的分布式推理支持:张量并行流水线并行、数据并行和专家并行。

涵盖内容

章节核心主题
概念TP、PP、DP、EP 原理与实现
练习并行策略选择、通信分析
代码走读parallel_state、通信后端关键代码

核心概念

vLLM 支持多种并行策略来处理大模型推理:

  • Tensor Parallelism(TP):将模型权重切分到多个 GPU
  • Pipeline Parallelism(PP):将模型层切分到多个 GPU
  • Data Parallelism(DP):复制模型处理不同请求
  • Expert Parallelism(EP):将 MoE 专家分布到不同 GPU

前置知识

学习路径

读完本主题后,你将理解:

  • 各种并行策略的原理和适用场景
  • vLLM 的 parallel_state 如何管理进程组
  • NCCL 通信集合(all-reduce、all-gather)在推理中的使用
  • 分布式 KV 缓存传输

→ 下一步:API服务与部署