小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
小米宣布正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的“涌现”行为。
公告称,后训练进一步激发了 Xiaomi-MiMo-Audio 的智商、情商、表现力与安全性在内的跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。
Xiaomi-MiMo-Audio 性能亮眼,具体如下:
- 在通用语音理解及对话等多项标准评测基准中,MiMo-Audio 大幅超越了同参数量的开源模型,取得 7B 最佳性能
- 在音频理解基准 MMAU 的标准测试集上,MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash
- 在面向音频复杂推理的基准 Big Bench Audio S2T 任务中,MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview
Xiaomi-MiMo-Audio 主要贡献如下:
-
首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力,见证语音领域的 “GPT-3 时刻”
-
首个明确语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系,开启语音领域的“LLaMA 时刻”
-
首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型,支持混合思考
模型
- 预训练模型 MiMo-Audio-7B-Base:是目前开源领域第一个有语音续写能力的语音模型
- 指令微调模型 MiMo-Audio-7B-Instruct:经过轻量级的 SFT,7B 参数规模最强语音理解和生成模型
MiMo-Audio-7B-Instruct 可通过 prompt 切换 non-thinking、thinking 两种模式,强化学习(RL)起点高、潜力足,可以作为研究语音 RL 和 Agentic 训练的全新基座模型。
此外,还开源了 MiMo-Audio 的 Tokenizer 模型:
- 1.2B 参数量,Transformer 架构,兼顾效率与性能
- 从头开始训练,覆盖超过千万小时语音数据
- 同时支持音频重建任务和音频转文本(A2T)任务

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
开放签企业版电子签章系统正式开源!
2025年9月19日,开放签团队正式宣布电子签章系统企业版开源,同步迎来资源律动公司成立6周年。感谢这六年里为项目付出技术心血的同事、提供场景支持的伙伴,以及每一位关注开放签成长的开发者!自2023年11月工具版开源以来,我们与社区共同打磨产品,累计收获1100+ Star、600+ Fork,并服务200+企业用户。此次企业版开源,标志着开放签正式迈入全栈开源阶段——通过代码透明化与社区协作,推动电子签行业从“技术黑盒”向“可信普惠”转型。 开源核心价值:让电子签回归“简单与可信” 技术透明:消除“电子签=神秘黑盒”的顾虑 开放签企业版完整开源所有核心代码(包括签名引擎、文档处理、权限管理等模块),开发者可自主审查安全逻辑、修改适配业务需求,彻底打破传统电子签系统“封闭性”的壁垒。无论是小型创业团队还是大型企业,都能通过代码了解“电子签是如何工作的”,真正实现“技术自主可控”。 合规可信:符合国标与国际规范,签署具备法律效力 企业版严格遵循《信息安全技术—安全电子签章密码技术规范》(GB/T 38540-2020)等国密标准,采用SM2国密算法(非对称加密,安全性高于国...
-
下一篇
英伟达向英特尔投资 50 亿美元,将合作推出“Intel X86 with RTX”芯片
英特尔与英伟达宣布达成合作,将共同开发多代定制化数据中心和个人计算产品,以加速相关应用及工作负载处理。英特尔将利用英伟达NVLink技术,设计制造定制化数据中心和客户端CPU。 作为合作一部分,英伟达将以每股23.28美元的价格,投资50亿美元认购英特尔普通股,交易需获监管批准。通过NVLink,双方架构将实现无缝互连,融合英伟达在AI与加速计算优势及英特尔的CPU技术和x86生态。 在数据中心领域,英特尔定制的x86 CPU将被英伟达集成到AI基础设施平台;个人计算方面,英特尔将推出集成英伟达RTX GPU Chiplet的x86 SoC,为PC产品提供高性能支持 。
相关文章
文章评论
共有0条评论来说两句吧...