阿里通义千问开源端到端多模态模型 Qwen2.5-Omni
3月27日,通义千问宣布推出新一代端到端多模态旗舰模型 Qwen2.5-Omni。该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。
Qwen2.5-Omni 是一种端到端多模态模型,旨在感知各种模态,包括文本,图像,音频和视频,同时以流式方式生成文本和自然语音响应。
关键特点
Omni 和新颖的架构:我们提出 Thinker-Talker 架构,这是一种端到端多模态模型,旨在感知各种模式,包括文本,图像,音频和视频,同时以流式方式生成文本和自然语音响应。 我们提出了一种新的位置嵌入,称为 TMRoPE (时间对齐多模态 RoPE), 以将视频输入的时间戳与音频同步。
- 实时语音和视频聊天:专为完全实时交互而设计的架构,支持分块输入和即时输出。
- 自然和强大的语音生成:超越许多现有的流媒体和非流媒体替代方案,在语音生成中表现出卓越的鲁棒性和自然性。
- 跨模式的强大性能:在与类似规模的单模式模型进行基准测试时,在所有模式中表现出卓越的性能。 Qwen2.5-Omni 在音频功能方面优于类似尺寸的 Qwen2-Audio, 并实现与 Qwen2.5-VL-7B 相当的性能。
- 优秀的端到端语音指令:Qwen2.5-Omni 在端到端语音指令中表现出性能,这与文本输入的有效性相媲美,MMLU 和 GSM8K 等基准测试就证明了这一点。
模型架构
性能
模型下载
目前只开源了 7B 尺寸的模型


