您现在的位置是:首页 > 文章详情

巨人网络&清华大学开源 DiaMoE-TTS,多方言语音合成大模型框架

日期:2025-10-15点击:13

巨人网络AI Lab与清华大学电子工程系SATLab研究团队近日联合发布一项重大突破:首创多方言语音合成大模型框架DiaMoE-TTS,并宣布将数据、代码、方法全方位开源,旨在推动方言语音合成的公平与普惠。

在当前通用TTS(文本转语音)大模型能力惊人的时代,方言TTS(Dialect TTS)仍是业界难以触及的“灰色地带”。现有的工业级方言模型过于依赖巨量的专有数据,导致方言从业者和研究者面临缺乏统一语料构建方法和端到端开源框架的困境。

由双方联合首创的DiaMoE-TTS框架,为这一难题提供了一套开源的完整解决方案,其性能在一定程度上可媲美工业级方言TTS模型。该方案的关键创新在于:

  1. 统一的IPA表达体系:基于语言学家的专业经验,构建了一个统一的国际音标(IPA)表达体系。

  2. 数据高效性:该框架仅依赖开源方言ASR(自动语音识别)数据,解决了巨量专有数据依赖的痛点。

在推出广东话、四川话、上海话等中文方言版本之前,该研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,证明该方法具备全球范围内的多语言可扩展性与稳健性。

巨人网络AI Lab与清华大学电子工程系SATLab表示,希望通过DiaMoE-TTS框架的开源,让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架,确保小众语言与方言的声音不再被通用大模型的洪流所淹没,而是能通过开源的力量被更广泛地听见与传承。

原文链接:https://www.oschina.net/news/377568
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章