您现在的位置是:首页 > 文章详情

B站(哔哩哔哩)语音团队开源新一代语音合成模型 IndexTTS2

日期:2025-09-09点击:13

哔哩哔哩语音团队发布并开源了新一代零样本语音合成模型IndexTTS2。

相关论文《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》已在arXiv上线,代码与模型权重也同步在GitHub与Hugging Face公开。

https://arxiv.org/abs/2506.21619

https://github.com/index-tts/index-tts

该模型首次在自回归架构中引入了“时间编码”机制,支持通过显式指定token数量来实现毫秒级的时长控制,也可以自由生成以保留原始韵律。

IndexTTS2 由三个核心模块组成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 声码器 。首先,T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音token数,生成对应的语义 token 序列。然后,S2M 模块以语义 token 和音色提示作为输入,进一步预测出梅尔频谱图。最后,BigVGANv2 声码器将梅尔频谱图转换为高质量的语音波形,完成端到端的语音合成过程。

IndexTTS2整体框架

模型训练数据包含了55K小时的中英双语语音以及135小时的情感数据。在LibriSpeech-test-clean、SeedTTS test-zh/en、AISHELL-1等基准测试中,IndexTTS2在词错误率和说话人相似度方面均取得了SOTA成绩。主观MOS评测显示,其情感保真度达到4.22,情感相似度为0.887,时长控制误差低于0.07%。

项目已提供WebUI与Python接口,支持普通零样本合成与情绪引导模式,可即插即用于AI配音、有声读物、视频翻译、播客等多种场景。官方还同步上线了内测版的“原声视频翻译”功能,让用户可以体验定长语音合成的效果。

原文链接:https://www.oschina.net/news/371073
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章