小米开源 OmniVoice，覆盖 600+ 语种的语音克隆 TTS-低调大师

小米开源 OmniVoice，覆盖 600+ 语种的语音克隆 TTS

2026-04-09 43

小米 AI 实验室新一代 Kaldi 团队（k2-fsa）已推出了 OmniVoice，一款能覆盖 600+ 语种的语音克隆 TTS 模型。目前，OmniVoice 的训练、推理代码以及模型权重已全部开源。

OmniVoice 核心优势有三点：

极简的超强架构：OmniVoice 是现有非自回归 TTS 模型中最简单的，且合成语音质量最好，同时还具有训练和推理速度上的巨大优势；
多语言能力顶尖：覆盖646种语种，在中英文上保持优异能力的同时，让低资源小语种也能实现高质量合成，性能超越商用系统；
实用性强：多维度可控，适配多种实际应用场景

根据介绍，OmniVoice 的模型架构极为简洁，仅包含一个双向的Transformer 网络，模型输入为按顺序排列的文本 token 和多码本声学 token，训练方式就是对多码本声学token进行随机 mask，然后预测被 mask 掉的 token。这可能是目前最简单的非自回归 TTS 模型架构，没有对文本的单独建模，没有 CNN+Transformer 的混合结构，也没有文本到语义 token 再到声学 token 的层级预测。

OmniVoice 是一个基于离散语音 token 的非自回归 TTS 模型。此前这一类模型通常需要采用两阶段建模，即先预测单码本的语义（semantic）token，再预测多码本的声学（acoustic）token，这种级联方案可以简化每个模块的训练难度，但也会造成级联误差，带来性能瓶颈。近期也有工作尝试将离散非自回归架构修改为端到端的方式，然而，即使采用结合了语义知识蒸馏的复杂方案，其性能依然与两阶段模型存在差距，更不要说超越两阶段模型。

而 OmniVoice 能把单阶段的离散非自回归架构做到超越两阶段的性能，其核心在于两个非常简单易行的技巧：一是使用全码本随机 mask，二是使用预训练 LLM 作为参数初始化。

为了提高 OmniVoice 在实际场景中的可用性，项目团队进一步为模型增加了多个维度的控制能力。

首先，为模型新增了基于说话人属性的音色设计能力，可通过性别、年龄、音调、方言、口音等控制音色，同时额外支持耳语风格。这一能力的扩展在 OmniVoice 的架构下非常简单，只需在输入序列最前方的指令（instruct）文本中加入对应说话人属性标注即可。

第二，考虑到实际使用场景中，收音设备和录音环境往往并不完美，难以提供音质完美的参考音频。为了解决这个问题，在模型训练中加入了一个参考音频去噪任务，对一小部分训练数据，在语音的提示（prompt）部分添加噪声和混响，而待预测部分则保持原状，同时在指令（instruct）部分给模型添加 <*denoise*> 标签，这样模型就能学到 <*denoise*> 标签时执行去噪任务，提取出带噪语音中的说话人音色。这样，即便提供的参考音频声学环境并不理想，模型也能合成较高质量的语音。

第三，还支持在模型中插入笑声、叹气声等副语言符号，让模型输出更灵活、更有表现力。

第四，模型能力再强，有时也会出现读错字的问题，尤其中文多音字和英文专有名词。为了解决这一问题，其在训练中采用了拼音/音素与文字混合输入的格式，这样在推理时，就可以通过拼音纠正中文错误发音，通过音素纠正英文错误发音，大幅提升模型的可靠性和可用性。

微信关注我们

原文链接：https://www.oschina.net/news/418860

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

DeepSeek 上线专家模式：产品首次引入分层设计，V4 模型传闻再起

DeepSeek 网页端迎来重要更新，在输入框上方新增「快速模式」与「专家模式」两项功能。这是 DeepSeek 自年初走红以来，首次在产品端引入模式分层设计。与此同时，带有图片图标的「视觉模型」功能也已开启灰度测试。此次上线的两种模式在生成速度与任务处理范围上形成明显区分。快速模式侧重于日常对话与即时响应，适合处理简单快速的问答场景，同时支持上传图片和文件进行文字识别。专家模式则更擅长处理复杂任务，如内容生成、代码编程、网页开发等，具备深度思考和智能搜索能力，但目前暂不支持多模态文件上传，且处于限量供应状态。据 DeepSeek 在对话中介绍，专家模式具备五大核心特点：领域深度增强、多步推理可视化、引用溯源强化、自定义专家组合，以及长上下文压缩优化。在模型架构层面，专家模式由 DeepSeek 下一代混合专家模型（MoE）架构支撑，核心底座基于 DeepSeek-V3.2（或其后继版本），并在推理层融合了 DeepSeek-R1 的强化学习成果。该模式沿用了 R1 的长思维链推理能力，但针对专业领域做了定向蒸馏和微调，使「快思考」与「慢思考」在专业场景内达到更优平衡。网友实测显...

2026-04-08

36

我是一名长期在 deepin 系统上工作的设计师，也是开源软件爱好者。在日常使用中我发现，Linux 平台缺少一款真正贴合日常需求、简单干净的本地字体管理工具。抱着 “自己痛点自己解决” 的想法，经过几个月的构思、测试与不断打磨，这款由自身需求出发、结合产品思维、AI 辅助与技术朋友建议共同完成的工具TypeVault 字匣，现已更新至V0.8 稳定版本，并正式上架 deepin 应用商店，希望能真正帮大家解决字体管理的实际问题。应用特性 TypeVault字匣是一款纯本地运行的字体管理工具，始终坚持免费开源、纯净高效的原则。应用全程在本地运行，不收集、不上传任何字体文件与个人信息，无需复杂配置，安装即用。目前已深度适配 deepin 等主流 Linux 系统，无论设计师还是普通用户，都能轻松上手、高效管理字体。核心功能易用安全考虑到字体与系统稳定性相关，删除字体需先禁用，确认不影响系统正常运行后才可操作，同时设有二次确认弹窗，避免误触；禁用的字体可一键恢复，删除的字体还会自动备份，最大程度降低误操作带来的影响。智能管理应用可自动扫描本地字体，将其分为系统字体和用户字体两...

2026-04-09

52

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。