您现在的位置是:首页 > 文章详情

阿里通义千问开源端到端多模态模型 Qwen2.5-Omni

日期:2025-03-27点击:32

3月27日,通义千问宣布推出新一代端到端多模态旗舰模型 Qwen2.5-Omni。该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

Qwen2.5-Omni 是一种端到端多模态模型,旨在感知各种模态,包括文本,图像,音频和视频,同时以流式方式生成文本和自然语音响应。

关键特点

Omni 和新颖的架构:我们提出 Thinker-Talker 架构,这是一种端到端多模态模型,旨在感知各种模式,包括文本,图像,音频和视频,同时以流式方式生成文本和自然语音响应。 我们提出了一种新的位置嵌入,称为 TMRoPE (时间对齐多模态 RoPE), 以将视频输入的时间戳与音频同步。

  • 实时语音和视频聊天:专为完全实时交互而设计的架构,支持分块输入和即时输出。
  • 自然和强大的语音生成:超越许多现有的流媒体和非流媒体替代方案,在语音生成中表现出卓越的鲁棒性和自然性。
  • 跨模式的强大性能:在与类似规模的单模式模型进行基准测试时,在所有模式中表现出卓越的性能。 Qwen2.5-Omni 在音频功能方面优于类似尺寸的 Qwen2-Audio, 并实现与 Qwen2.5-VL-7B 相当的性能。
  • 优秀的端到端语音指令:Qwen2.5-Omni 在端到端语音指令中表现出性能,这与文本输入的有效性相媲美,MMLU 和 GSM8K 等基准测试就证明了这一点。

模型架构

性能

模型下载

目前只开源了 7B 尺寸的模型

https://huggingface.co/Qwen/Qwen2.5-Omni-7B

原文链接:https://www.oschina.net/news/341243/qwen2-5-omni-7b
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章