您现在的位置是：首页 > 文章详情

B站（哔哩哔哩）语音团队开源新一代语音合成模型 IndexTTS2

日期：2025-09-09点击：107收藏

哔哩哔哩语音团队发布并开源了新一代零样本语音合成模型IndexTTS2。

相关论文《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》已在arXiv上线，代码与模型权重也同步在GitHub与Hugging Face公开。

https://arxiv.org/abs/2506.21619

https://github.com/index-tts/index-tts

该模型首次在自回归架构中引入了“时间编码”机制，支持通过显式指定token数量来实现毫秒级的时长控制，也可以自由生成以保留原始韵律。

IndexTTS2 由三个核心模块组成：Text-to-Semantic（T2S）、Semantic-to-Mel（S2M）以及 BigVGANv2 声码器。首先，T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音token数，生成对应的语义 token 序列。然后，S2M 模块以语义 token 和音色提示作为输入，进一步预测出梅尔频谱图。最后，BigVGANv2 声码器将梅尔频谱图转换为高质量的语音波形，完成端到端的语音合成过程。

IndexTTS2整体框架

模型训练数据包含了55K小时的中英双语语音以及135小时的情感数据。在LibriSpeech-test-clean、SeedTTS test-zh/en、AISHELL-1等基准测试中，IndexTTS2在词错误率和说话人相似度方面均取得了SOTA成绩。主观MOS评测显示，其情感保真度达到4.22，情感相似度为0.887，时长控制误差低于0.07%。

项目已提供WebUI与Python接口，支持普通零样本合成与情绪引导模式，可即插即用于AI配音、有声读物、视频翻译、播客等多种场景。官方还同步上线了内测版的“原声视频翻译”功能，让用户可以体验定长语音合成的效果。

原文链接：https://www.oschina.net/news/371073

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。