巨人网络&清华大学开源 DiaMoE-TTS,多方言语音合成大模型框架
巨人网络AI Lab与清华大学电子工程系SATLab研究团队近日联合发布一项重大突破:首创多方言语音合成大模型框架DiaMoE-TTS,并宣布将数据、代码、方法全方位开源,旨在推动方言语音合成的公平与普惠。 在当前通用TTS(文本转语音)大模型能力惊人的时代,方言TTS(Dialect TTS)仍是业界难以触及的“灰色地带”。现有的工业级方言模型过于依赖巨量的专有数据,导致方言从业者和研究者面临缺乏统一语料构建方法和端到端开源框架的困境。 由双方联合首创的DiaMoE-TTS框架,为这一难题提供了一套开源的完整解决方案,其性能在一定程度上可媲美工业级方言TTS模型。该方案的关键创新在于: 统一的IPA表达体系:基于语言学家的专业经验,构建了一个统一的国际音标(IPA)表达体系。 数据高效性:该框架仅依赖开源方言ASR(自动语音识别)数据,解决了巨量专有数据依赖的痛点。 在推出广东话、四川话、上海话等中文方言版本之前,该研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,证明该方法具备全球范围内的多语言可扩展性与稳健性。 巨人网络AI Lab与清华大学电子工程系SATLa...
