vLLM-Omni 上线:多模态推理更简单、更快、更省
vLLM 团队正式发布vLLM-Omni:这是 vLLM 生态向“全模态(omni-modality)”时代迈出的关键一步,专门为新一代看得见、听得懂、会说话、能生成多种媒介的模型设计的推理框架。 自项目开始,vLLM 一直专注于为大语言模型(LLM)提供高吞吐、低显存的推理能力。但今天的生成式模型已经远不止“文本输入、文本输出”:新的模型可以同时理解和生成文本、图像、音频、视频,背后也不再是单一自回归架构,而是由编码器、语言模型、扩散模型等异构组件拼接而成。 vLLM-Omni是最早一批支持“omni-modality”模型推理的开源框架之一,它把 vLLM 在文本推理上的性能优势,扩展到了多模态和非自回归推理领域。 vLLM-Omni 不是在 vLLM 外面再包一层,而是从数据流(data flow)的角度重新拆解了整个推理路径。它引入了一个完全解耦的流水线架构,让不同阶段可以按需分配资源,并通过统一调度衔接起来。 在这套架构中,一个 omni-modality 推理请求大致会经过三类组件: 模态编码器(Modality Encoders):负责高效地把多模态输入编码成向量或中间表...
