Appearance
分布式计算
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | TP、PP、DP、EP 原理与实现 |
| 练习 | 并行策略选择、通信分析 |
| 代码走读 | parallel_state、通信后端关键代码 |
核心概念
vLLM 支持多种并行策略来处理大模型推理:
- Tensor Parallelism(TP):将模型权重切分到多个 GPU
- Pipeline Parallelism(PP):将模型层切分到多个 GPU
- Data Parallelism(DP):复制模型处理不同请求
- Expert Parallelism(EP):将 MoE 专家分布到不同 GPU
前置知识
- 执行器与Worker
- GPU 间通信(NCCL)基础
- 分布式系统基本概念
学习路径
读完本主题后,你将理解:
- 各种并行策略的原理和适用场景
- vLLM 的 parallel_state 如何管理进程组
- NCCL 通信集合(all-reduce、all-gather)在推理中的使用
- 分布式 KV 缓存传输
→ 下一步:API服务与部署