法国 AI 研究机构开源 Kyutai TTS,低延迟流式文本转语音技术
法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。
Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU,该模型可同时处理32个请求,延迟仅为350毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如Unmute平台的中断处理功能。
在语言支持与质量评估方面,Kyutai TTS目前支持英语和法语,单词错误率(WER)分别为2.82和3.29,展现出高准确度。说话者相似度达到77.1%(英语)和78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统TTS的30秒限制,适合新闻、书籍等长篇内容生成。
Kyutai TTS采用延迟流建模(DSM)架构,结合Rust服务器实现高效批处理,已在GitHub和Hugging Face开放源码与模型权重,助力全球开发者推动语音技术创新。
开源地址:https://github.com/kyutai-labs/delayed-streams-modeling

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
宇树科技或于科创板 IPO
据《每日经济新闻》从宇树科技相关投资方获悉,宇树科技后续有计划于科创板IPO(首次公开募股)。 2025年5月29日,宇树科技发布通知称,因公司发展需要,杭州宇树科技有限公司即日起名称变更为“杭州宇树科技股份有限公司”。彼时,有媒体报道称,宇树科技这一举动可视同完成股改。至于为何变更名称,外界认为或许是为了IPO铺路。而宇树科技曾回应,“这是公司运营方面的常规变更”。 6月份消息,宇树科技已完成了始于去年 9 月的 C 轮融资交割,由中国移动旗下基金、腾讯、锦秋、阿里、蚂蚁、吉利资本共同领投,绝大部分老股东跟投。融资金额接近 7 亿元人民币,投后估值超 120 亿元。 宇树科技创始人兼CEO王兴兴还在夏季达沃斯论坛上透露,公司年度营收已超10亿元人民币。此前也有宇树科技投资人透露,自2020年起,宇树科技已连续5年实现盈利。 相关阅读: 宇树科技回应更名 “股份有限公司” 宇树科技确认:近期已完成 C 轮融资交割 宇树科技王兴兴:公司目前年度营收超过十亿元
- 下一篇
腾讯元器接入微信支付 MCP
7月3日,腾讯元器宣布正式接入微信支付MCP,支持开发者在智能体上直接增加下单、赞赏、查询订单等功能,打通智能体商业化的最后一公里。 微信支付MCP是微信支付团队为AI智能体生态打造的支付解决方案,具有安全、便捷、可靠等多重特点,腾讯元器作为首个接入微信支付MCP的智能体开发平台,将凭借腾讯生态的优势连接能力,为智能体的开发带来更多丰富的体验。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2整合Thymeleaf,官方推荐html解决方案