小红书开源 FireRedTTS2,专为长对话设计的语音生成系统
小红书团队发布名为 FireRedTTS2 的开源项目,这是一款面向多说话人对话生成的长篇流式语音合成系统,旨在为播客和聊天机器人提供稳定、自然的语音输出。
核心亮点:
- 长篇对话生成:支持长达 3 分钟的 4 人对话,且可通过扩展训练语料轻松扩展至更长对话和更多说话人。
- 多语言支持:涵盖英语、中文、日语、韩语、法语、德语和俄语等多种语言,支持跨语言和代码切换场景下的零样本文本到语音克隆。
- 超低延迟:基于 12.5Hz 流式语音标记器,采用双 Transformer 架构,实现文本 - 语音交错序列操作,灵活支持逐句生成,首包延迟低至 140ms,同时保持高质量音频输出。
- 高稳定性:在独白和对话测试中均展现出高相似性和低词错误率 / 字符错误率。
- 随机音色生成:适用于创建语音识别 / 语音交互数据。
团队已发布技术报告与演示页面,并计划在 10 月 推出增强版多语言基模型、微调代码与教程,以及端到端的 text-to-blog 流水线。
代码仓库附带完整的安装与使用示例,依赖 PyTorch 2.7.1,模型权重托管于 Hugging Face。
https://github.com/FireRedTeam/FireRedTTS2
https://arxiv.org/abs/2509.02020
https://huggingface.co/FireRedTeam/FireRedTTS2

