B站(哔哩哔哩)语音团队开源新一代语音合成模型 IndexTTS2
哔哩哔哩语音团队发布并开源了新一代零样本语音合成模型IndexTTS2。
相关论文《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》已在arXiv上线,代码与模型权重也同步在GitHub与Hugging Face公开。
https://arxiv.org/abs/2506.21619
https://github.com/index-tts/index-tts
该模型首次在自回归架构中引入了“时间编码”机制,支持通过显式指定token数量来实现毫秒级的时长控制,也可以自由生成以保留原始韵律。
IndexTTS2 由三个核心模块组成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 声码器 。首先,T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音token数,生成对应的语义 token 序列。然后,S2M 模块以语义 token 和音色提示作为输入,进一步预测出梅尔频谱图。最后,BigVGANv2 声码器将梅尔频谱图转换为高质量的语音波形,完成端到端的语音合成过程。
IndexTTS2整体框架
模型训练数据包含了55K小时的中英双语语音以及135小时的情感数据。在LibriSpeech-test-clean、SeedTTS test-zh/en、AISHELL-1等基准测试中,IndexTTS2在词错误率和说话人相似度方面均取得了SOTA成绩。主观MOS评测显示,其情感保真度达到4.22,情感相似度为0.887,时长控制误差低于0.07%。
项目已提供WebUI与Python接口,支持普通零样本合成与情绪引导模式,可即插即用于AI配音、有声读物、视频翻译、播客等多种场景。官方还同步上线了内测版的“原声视频翻译”功能,让用户可以体验定长语音合成的效果。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
极光 GPTBots 重磅升级 AI 工作空间,以应用市场开”AI 全员化”新篇章
极光GPTBots重磅升级AI工作空间,以应用市场 (Marketplace) 开启“AI全员化”新篇章 企业级AI智能体构建平台GPTBots近日宣布,其AI工作空间(Workspace)完成重磅升级,并同步推出全新的应用市场(Marketplace)。此次升级标志着GPTBots从一个专业的AI开发工具,战略性地演变为一个“人人可用”的企业级AI生产力平台,旨在将强大的AI能力安全、便捷地融入日常工作的每一个环节。 一、 核心升级:更强大的AI工作空间,赋能每一位员工 升级后的AI工作空间 (Workspace)旨在将强大的AI能力转化为企业全员触手可及的生产力工具。其能力通过两大维度得到革命性增强:强大的内置基础应用和开放的应用市场生态。 1. 内置能力全面增强,覆盖高频核心场景Workspace内置的核心功能板块得到全面升级,为员工日常工作提供了强大的基础能力: 企业级AI Search:作为一个强大的企业智能搜索入口,员工可上传图片、音频、文档进行多模态检索,并可自定义模型与提示词,快速、精准地从企业海量数据中获取洞察。 零代码自动化Workflow:作为一个强大的业务流程自...
-
下一篇
上海 AI 实验室开源 XTuner V1 训练引擎
上海人工智能实验室(上海AI实验室)宣布开源书生大模型新一代训练引擎 XTuner V1。 根据介绍,XTuner V1 是伴随上海AI实验室“通专融合”技术路线的持续演进,以及书生大模型研发实践而成长起来的新一代训练引擎。相较于传统的 3D 并行训练引擎,XTuner V1 不仅能应对更加复杂的训练场景,还具备更快的训练速度,尤其在超大规模稀疏混合专家(MoE)模型训练中优势显著。 XTuner V1 基于 PyTorch FSDP 进行开发,并针对 FSDP 通信量大的固有缺陷,进行了系列优化,可支持 1T 参数量级 MoE 模型训练,并首次在 200B 以上量级的混合专家模型上,实现训练吞吐超越传统的 3D 并行训练方案。 针对当前主流的 MoE 后训练需求,XTuner V1 不使用序列并行就能实现 200B 量级 MoE 模型单次 forward-backward 可处理 64k 序列长度,更适合当下流行的强化学习训练场景;对专家并行依赖小,长序列训练时受专家不均衡影响小,200B 量级 MoE 无需专家并行,600B MoE 只需节点内专家并行,更适合现代 MoE Drop...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- MySQL数据库在高并发下的优化方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2整合Thymeleaf,官方推荐html解决方案