阿里通义千问开源端到端多模态模型 Qwen2.5-Omni-低调大师

阿里通义千问开源端到端多模态模型 Qwen2.5-Omni

2025-03-27 636

3月27日，通义千问宣布推出新一代端到端多模态旗舰模型 Qwen2.5-Omni。该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

Qwen2.5-Omni 是一种端到端多模态模型，旨在感知各种模态，包括文本，图像，音频和视频，同时以流式方式生成文本和自然语音响应。

关键特点

Omni 和新颖的架构：我们提出 Thinker-Talker 架构，这是一种端到端多模态模型，旨在感知各种模式，包括文本，图像，音频和视频，同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置嵌入，称为 TMRoPE (时间对齐多模态 RoPE), 以将视频输入的时间戳与音频同步。

实时语音和视频聊天：专为完全实时交互而设计的架构，支持分块输入和即时输出。
自然和强大的语音生成：超越许多现有的流媒体和非流媒体替代方案，在语音生成中表现出卓越的鲁棒性和自然性。
跨模式的强大性能：在与类似规模的单模式模型进行基准测试时，在所有模式中表现出卓越的性能。 Qwen2.5-Omni 在音频功能方面优于类似尺寸的 Qwen2-Audio, 并实现与 Qwen2.5-VL-7B 相当的性能。
优秀的端到端语音指令：Qwen2.5-Omni 在端到端语音指令中表现出性能，这与文本输入的有效性相媲美，MMLU 和 GSM8K 等基准测试就证明了这一点。

模型架构

性能

模型下载

目前只开源了 7B 尺寸的模型

https://huggingface.co/Qwen/Qwen2.5-Omni-7B

微信关注我们

原文链接：https://www.oschina.net/news/341243/qwen2-5-omni-7b

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAI Agents SDK 已支持大模型上下文协议 MCP

OpenAI 宣布其智能体——OpenAI Agents SDK 已支持大模型上下文协议 MCP，并表示称正在为 OpenAI API 和 ChatGPT 桌面应用程序开发 MCP 支持。 OpenAI Agents SDK 支持 MCP 对于开发复杂的智能体具有巨大帮助。例如，在开发一个需要同时进行文件处理、数据查询和网络信息收集的智能体时，开发者可以通过 MCP 服务器分别集成文件系统工具、数据库查询工具和网络爬虫工具，更高效地完成任务。参考文档 https://openai.github.io/openai-agents-python/mcp/ https://github.com/openai/openai-agents-python

2025-03-27

156

3 月 26 日，首发接入 DeepSeek V3-0324 最新模型后，腾讯元宝再次发布更新，支持实时预览 HTML 代码。目前，元宝的混元与 DeepSeek 两大模型均支持代码生成，覆盖前端、脚本、数据处理等多种主流语言，适配多类开发场景，适合开发者和各类用户快速上手。结合元宝双模型在代码方面的表现，也还够帮助用户代码审查相关工作。此外，使用 DeepSeek V3-0324 模型，除了网页生成，还能完成更多类型的代码生成任务，如生成 UI 组件、构建网页、编写小游戏，甚至是生成 3D 动画等。现在，用户在元宝选择 DeepSeek，并关闭「深度思考」，便可使用最新的 V3-0324。该模型在代码生成稳定性、逻辑控制精准度和响应速度上均有明显提升，在数学、代码类相关评测集上取得了超过 GPT-4.5、Claude Sonnet 3.7 的得分成绩。阅读更多 DeepSeek 官方详解 V3 模型“小版本”升级，各项能力全面进阶 DeepSeek V3 模型更新，大幅提升编程能力

2025-03-27

192

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。