B站(哔哩哔哩)语音团队开源新一代语音合成模型 IndexTTS2
哔哩哔哩语音团队发布并开源了新一代零样本语音合成模型IndexTTS2。 相关论文《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》已在arXiv上线,代码与模型权重也同步在GitHub与Hugging Face公开。 https://arxiv.org/abs/2506.21619 https://github.com/index-tts/index-tts 该模型首次在自回归架构中引入了“时间编码”机制,支持通过显式指定token数量来实现毫秒级的时长控制,也可以自由生成以保留原始韵律。 IndexTTS2 由三个核心模块组成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 声码器 。首先,T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音token数,生成对应的语义 token 序列。然后,S2M 模块以语义 t...

