您现在的位置是:首页 > 文章详情

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

日期:2025-09-19点击:33

小米宣布正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的“涌现”行为。

公告称,后训练进一步激发了 Xiaomi-MiMo-Audio 的智商、情商、表现力与安全性在内的跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

Xiaomi-MiMo-Audio 性能亮眼,具体如下:

  • 在通用语音理解及对话等多项标准评测基准中,MiMo-Audio 大幅超越了同参数量的开源模型,取得 7B 最佳性能
  • 在音频理解基准 MMAU 的标准测试集上,MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash
  • 在面向音频复杂推理的基准 Big Bench Audio S2T 任务中,MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview

Xiaomi-MiMo-Audio 主要贡献如下:

  • 首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力,见证语音领域的 “GPT-3 时刻”

  • 首个明确语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系,开启语音领域的“LLaMA 时刻”

  • 首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型,支持混合思考

模型

  • 预训练模型 MiMo-Audio-7B-Base:是目前开源领域第一个有语音续写能力的语音模型
  • 指令微调模型 MiMo-Audio-7B-Instruct:经过轻量级的 SFT,7B 参数规模最强语音理解和生成模型

MiMo-Audio-7B-Instruct 可通过 prompt 切换 non-thinking、thinking 两种模式,强化学习(RL)起点高、潜力足,可以作为研究语音 RL 和 Agentic 训练的全新基座模型。

此外,还开源了 MiMo-Audio 的 Tokenizer 模型:

  • 1.2B 参数量,Transformer 架构,兼顾效率与性能
  • 从头开始训练,覆盖超过千万小时语音数据
  • 同时支持音频重建任务和音频转文本(A2T)任务
原文链接:https://www.oschina.net/news/373118
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章