您现在的位置是:首页 > 文章详情

小红书开源 FireRedTTS2,专为长对话设计的语音生成系统

日期:2025-09-12点击:18

小红书团队发布名为 FireRedTTS2 的开源项目,这是一款面向多说话人对话生成的长篇流式语音合成系统,旨在为播客和聊天机器人提供稳定、自然的语音输出。

核心亮点:

  • 长篇对话生成:支持长达 3 分钟的 4 人对话,且可通过扩展训练语料轻松扩展至更长对话和更多说话人。
  • 多语言支持:涵盖英语、中文、日语、韩语、法语、德语和俄语等多种语言,支持跨语言和代码切换场景下的零样本文本到语音克隆。
  • 超低延迟:基于 12.5Hz 流式语音标记器,采用双 Transformer 架构,实现文本 - 语音交错序列操作,灵活支持逐句生成,首包延迟低至 140ms,同时保持高质量音频输出。
  • 高稳定性:在独白和对话测试中均展现出高相似性和低词错误率 / 字符错误率。
  • 随机音色生成:适用于创建语音识别 / 语音交互数据。

团队已发布技术报告与演示页面,并计划在 10 月 推出增强版多语言基模型、微调代码与教程,以及端到端的 text-to-blog 流水线。

代码仓库附带完整的安装与使用示例,依赖 PyTorch 2.7.1,模型权重托管于 Hugging Face。

https://github.com/FireRedTeam/FireRedTTS2
https://arxiv.org/abs/2509.02020
https://huggingface.co/FireRedTeam/FireRedTTS2

原文链接:https://www.oschina.net/news/371836
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章