阿里通义千问开源端到端多模态模型 Qwen2.5-Omni
3月27日,通义千问宣布推出新一代端到端多模态旗舰模型 Qwen2.5-Omni。该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。
Qwen2.5-Omni 是一种端到端多模态模型,旨在感知各种模态,包括文本,图像,音频和视频,同时以流式方式生成文本和自然语音响应。
关键特点
Omni 和新颖的架构:我们提出 Thinker-Talker 架构,这是一种端到端多模态模型,旨在感知各种模式,包括文本,图像,音频和视频,同时以流式方式生成文本和自然语音响应。 我们提出了一种新的位置嵌入,称为 TMRoPE (时间对齐多模态 RoPE), 以将视频输入的时间戳与音频同步。
- 实时语音和视频聊天:专为完全实时交互而设计的架构,支持分块输入和即时输出。
- 自然和强大的语音生成:超越许多现有的流媒体和非流媒体替代方案,在语音生成中表现出卓越的鲁棒性和自然性。
- 跨模式的强大性能:在与类似规模的单模式模型进行基准测试时,在所有模式中表现出卓越的性能。 Qwen2.5-Omni 在音频功能方面优于类似尺寸的 Qwen2-Audio, 并实现与 Qwen2.5-VL-7B 相当的性能。
- 优秀的端到端语音指令:Qwen2.5-Omni 在端到端语音指令中表现出性能,这与文本输入的有效性相媲美,MMLU 和 GSM8K 等基准测试就证明了这一点。
模型架构
性能
模型下载
目前只开源了 7B 尺寸的模型

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
OpenAI Agents SDK 已支持大模型上下文协议 MCP
OpenAI 宣布其智能体——OpenAI Agents SDK 已支持大模型上下文协议 MCP,并表示称正在为 OpenAI API 和 ChatGPT 桌面应用程序开发 MCP 支持。 OpenAI Agents SDK 支持 MCP 对于开发复杂的智能体具有巨大帮助。例如,在开发一个需要同时进行文件处理、数据查询和网络信息收集的智能体时,开发者可以通过 MCP 服务器分别集成文件系统工具、数据库查询工具和网络爬虫工具,更高效地完成任务。 参考文档 https://openai.github.io/openai-agents-python/mcp/ https://github.com/openai/openai-agents-python
- 下一篇
腾讯元宝支持实时预览 HTML 代码
3 月 26 日,首发接入 DeepSeek V3-0324 最新模型后,腾讯元宝再次发布更新,支持实时预览 HTML 代码。 目前,元宝的混元与 DeepSeek 两大模型均支持代码生成,覆盖前端、脚本、数据处理等多种主流语言,适配多类开发场景,适合开发者和各类用户快速上手。结合元宝双模型在代码方面的表现,也还够帮助用户代码审查相关工作。 此外,使用 DeepSeek V3-0324 模型,除了网页生成,还能完成更多类型的代码生成任务,如生成 UI 组件、构建网页、编写小游戏,甚至是生成 3D 动画等。 现在,用户在元宝选择 DeepSeek,并关闭「深度思考」,便可使用最新的 V3-0324。该模型在代码生成稳定性、逻辑控制精准度和响应速度上均有明显提升,在数学、代码类相关评测集上取得了超过 GPT-4.5、Claude Sonnet 3.7 的得分成绩。 阅读更多 DeepSeek 官方详解 V3 模型“小版本”升级,各项能力全面进阶 DeepSeek V3 模型更新,大幅提升编程能力
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- 2048小游戏-低调大师作品
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS关闭SELinux安全模块
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池