小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio-低调大师

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

2025-09-19 101

小米宣布正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的“涌现”行为。

公告称，后训练进一步激发了 Xiaomi-MiMo-Audio 的智商、情商、表现力与安全性在内的跨模态对齐能力，语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

Xiaomi-MiMo-Audio 性能亮眼，具体如下：

在通用语音理解及对话等多项标准评测基准中，MiMo-Audio 大幅超越了同参数量的开源模型，取得 7B 最佳性能
在音频理解基准 MMAU 的标准测试集上，MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash
在面向音频复杂推理的基准 Big Bench Audio S2T 任务中，MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview

Xiaomi-MiMo-Audio 主要贡献如下：

首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性，表现为 Few-Shot Learning 能力，见证语音领域的 “GPT-3 时刻”

首个明确语音生成式预训练的目标和定义，并开源一套完整的语音预训练方案，包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系，开启语音领域的“LLaMA 时刻”

首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型，支持混合思考

模型

预训练模型 MiMo-Audio-7B-Base：是目前开源领域第一个有语音续写能力的语音模型
指令微调模型 MiMo-Audio-7B-Instruct：经过轻量级的 SFT，7B 参数规模最强语音理解和生成模型

MiMo-Audio-7B-Instruct 可通过 prompt 切换 non-thinking、thinking 两种模式，强化学习（RL）起点高、潜力足，可以作为研究语音 RL 和 Agentic 训练的全新基座模型。

此外，还开源了 MiMo-Audio 的 Tokenizer 模型：

1.2B 参数量，Transformer 架构，兼顾效率与性能
从头开始训练，覆盖超过千万小时语音数据
同时支持音频重建任务和音频转文本（A2T）任务

微信关注我们

原文链接：https://www.oschina.net/news/373118

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开放签企业版电子签章系统正式开源！

2025年9月19日，开放签团队正式宣布电子签章系统企业版开源，同步迎来资源律动公司成立6周年。感谢这六年里为项目付出技术心血的同事、提供场景支持的伙伴，以及每一位关注开放签成长的开发者！自2023年11月工具版开源以来，我们与社区共同打磨产品，累计收获1100+ Star、600+ Fork，并服务200+企业用户。此次企业版开源，标志着开放签正式迈入全栈开源阶段——通过代码透明化与社区协作，推动电子签行业从“技术黑盒”向“可信普惠”转型。开源核心价值：让电子签回归“简单与可信” 技术透明：消除“电子签=神秘黑盒”的顾虑开放签企业版完整开源所有核心代码（包括签名引擎、文档处理、权限管理等模块），开发者可自主审查安全逻辑、修改适配业务需求，彻底打破传统电子签系统“封闭性”的壁垒。无论是小型创业团队还是大型企业，都能通过代码了解“电子签是如何工作的”，真正实现“技术自主可控”。合规可信：符合国标与国际规范，签署具备法律效力企业版严格遵循《信息安全技术—安全电子签章密码技术规范》（GB/T 38540-2020）等国密标准，采用SM2国密算法（非对称加密，安全性高于国...

2025-09-19

108

英特尔与英伟达宣布达成合作，将共同开发多代定制化数据中心和个人计算产品，以加速相关应用及工作负载处理。英特尔将利用英伟达NVLink技术，设计制造定制化数据中心和客户端CPU。作为合作一部分，英伟达将以每股23.28美元的价格，投资50亿美元认购英特尔普通股，交易需获监管批准。通过NVLink，双方架构将实现无缝互连，融合英伟达在AI与加速计算优势及英特尔的CPU技术和x86生态。在数据中心领域，英特尔定制的x86 CPU将被英伟达集成到AI基础设施平台；个人计算方面，英特尔将推出集成英伟达RTX GPU Chiplet的x86 SoC，为PC产品提供高性能支持。

2025-09-19

109

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。