多模态处理

深入 vLLM 的多模态支持：图像、音频、视频输入的处理流水线，以及多模态模型（VLM）的推理优化。

涵盖内容

章节	核心主题
概念	多模态输入类型、处理流水线、编码器缓存
练习	多模态输入处理分析、性能优化
代码走读	multimodal 目录关键代码

核心概念

vLLM 支持多种多模态输入类型：

图像：支持多图输入、动态分辨率
音频：语音识别、音频理解
视频：视频帧提取、时序编码
混合输入：文本 + 图像 + 音频的组合

前置知识

模型库与算子层
Vision Transformer 基本原理
多模态模型（LLaVA、Qwen-VL 等）基本架构

学习路径

读完本主题后，你将理解：

多模态输入的解析和预处理流水线
编码器（Vision Encoder、Audio Encoder）的缓存策略
多模态特征如何与语言模型的 embedding 融合
多模态推理的性能优化技巧

→ 下一步：分布式计算