小红书开源 FireRedTTS2,专为长对话设计的语音生成系统
小红书团队发布名为 FireRedTTS2 的开源项目,这是一款面向多说话人对话生成的长篇流式语音合成系统,旨在为播客和聊天机器人提供稳定、自然的语音输出。
核心亮点:
- 长篇对话生成:支持长达 3 分钟的 4 人对话,且可通过扩展训练语料轻松扩展至更长对话和更多说话人。
- 多语言支持:涵盖英语、中文、日语、韩语、法语、德语和俄语等多种语言,支持跨语言和代码切换场景下的零样本文本到语音克隆。
- 超低延迟:基于 12.5Hz 流式语音标记器,采用双 Transformer 架构,实现文本 - 语音交错序列操作,灵活支持逐句生成,首包延迟低至 140ms,同时保持高质量音频输出。
- 高稳定性:在独白和对话测试中均展现出高相似性和低词错误率 / 字符错误率。
- 随机音色生成:适用于创建语音识别 / 语音交互数据。
团队已发布技术报告与演示页面,并计划在 10 月 推出增强版多语言基模型、微调代码与教程,以及端到端的 text-to-blog 流水线。
代码仓库附带完整的安装与使用示例,依赖 PyTorch 2.7.1,模型权重托管于 Hugging Face。
https://github.com/FireRedTeam/FireRedTTS2
https://arxiv.org/abs/2509.02020
https://huggingface.co/FireRedTeam/FireRedTTS2

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Claude 面向 Team 和 Enterprise 用户上线“记忆”功能
Anthropic为Claude的Team与Enterprise用户上线了“记忆”功能,允许模型记住过去的对话内容以提供更个性化的服务,并同步向所有用户开放隐身聊天模式。 该功能默认关闭,用户可在设置中启用“搜索并引用聊天记录”与“生成聊天历史记忆”两项开关,随时查看、编辑或删除Claude保存的内容。 系统以项目为边界,为每个项目单独维护记忆,确保不同工作流互不干扰;企业管理员可一键关闭组织级记忆。隐身聊天模式下,对话既不写入历史也不进入记忆,适合敏感讨论。 Anthropic表示,记忆功能将很快扩展至其他付费档位,并支持导入导出以便迁移或备份。
-
下一篇
美国 FTC 启动对 Meta、OpenAI 等 AI 聊天机器人调查
美国联邦贸易委员会(FTC)已要求Alphabet旗下的谷歌、OpenAI、Meta Platforms Inc.及其他四家人工智能聊天机器人开发商提交相关资料,说明其技术对儿童的影响。 这家负责反垄断和消费者保护的机构周四表示,已向这些公司发出指令,以收集信息研究它们如何评估、测试和监控聊天机器人,以及采取了哪些措施限制未成年人使用。七家公司包括谷歌、OpenAI、Meta及其Instagram子公司、Snap Inc.、埃隆·马斯克的xAI,以及Character.AI的开发商Character Technologies Inc.。 聊天机器人开发商正面临越来越严格的审查,外界质疑它们是否采取足够行动保障服务安全,防止用户参与危险行为。上月,一名加州高中生的父母起诉OpenAI,称ChatGPT让他们的儿子与家人疏远,并帮助他筹划了在今年4月的自杀。该公司表示已经向家属致以同情,并正在评估这起诉讼。 谷歌和Snap未立即置评,OpenAI、xAI和Character.AI也未立即做出回应。Meta拒绝发表评论,但该公司近期已采取措施,确保聊天机器人避免与未成年人讨论包括自残和自杀在...
相关文章
文章评论
共有0条评论来说两句吧...