B站(哔哩哔哩)语音团队开源新一代语音合成模型 IndexTTS2
哔哩哔哩语音团队发布并开源了新一代零样本语音合成模型IndexTTS2。
相关论文《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》已在arXiv上线,代码与模型权重也同步在GitHub与Hugging Face公开。
https://arxiv.org/abs/2506.21619
https://github.com/index-tts/index-tts
该模型首次在自回归架构中引入了“时间编码”机制,支持通过显式指定token数量来实现毫秒级的时长控制,也可以自由生成以保留原始韵律。
IndexTTS2 由三个核心模块组成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 声码器 。首先,T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音token数,生成对应的语义 token 序列。然后,S2M 模块以语义 token 和音色提示作为输入,进一步预测出梅尔频谱图。最后,BigVGANv2 声码器将梅尔频谱图转换为高质量的语音波形,完成端到端的语音合成过程。
IndexTTS2整体框架
模型训练数据包含了55K小时的中英双语语音以及135小时的情感数据。在LibriSpeech-test-clean、SeedTTS test-zh/en、AISHELL-1等基准测试中,IndexTTS2在词错误率和说话人相似度方面均取得了SOTA成绩。主观MOS评测显示,其情感保真度达到4.22,情感相似度为0.887,时长控制误差低于0.07%。
项目已提供WebUI与Python接口,支持普通零样本合成与情绪引导模式,可即插即用于AI配音、有声读物、视频翻译、播客等多种场景。官方还同步上线了内测版的“原声视频翻译”功能,让用户可以体验定长语音合成的效果。

