小米 Kaldi 团队开源零样本语音合成模型模型 ZipVoice
近日,小米集团新一代 Kaldi 团队发布了基于 Flow Matching 架构的ZipVoice系列语音合成(TTS)模型——ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)。
作为 zipformer 在语音生成任务上的应用和探索,ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。
ZipVoice系列的模型文件、训练代码和推理代码以及6.8k小时的语音对话数据集OpenDialog已全部开源:https://github.com/k2-fsa/ZipVoice
Zipvoice 论文:https://arxiv.org/pdf/2506.13053
样例体验请访问:https://zipvoice.github.io

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
AI 编程公司 Replit 融资 2.5 亿美元,估值达 30 亿美元
AI 编程公司 Replit 宣布完成了一轮2.5亿美元融资,使其估值达到了约30亿美元,较2023年上一轮融资增长近三倍。在过去一年中,Replit 的年收入从280万美元飙升至1.5亿美元,目前。 公告称,Replit 的用户数量已达到 4000 万。此次融资正值该公司年化收入在不到一年的时间里从 280 万美元增长至 1.5 亿美元之际(增幅超过 50 倍)。 此次融资由 Prysm Capital 主导,参与投资的还有 Amex Ventures 和谷歌的 AI Futures Fund。此外,Replit 的现有投资者,包括 Y Combinator、Craft Ventures、Andreessen Horowitz、Coatue Management 和 Paul Graham 等也参与了这一轮融资。 与此同时,Replit 还宣布推出了 Agent 3,并声称是其迄今为止自主性最强的 agent。Agent 3 的自主性比之前的版本提高了十倍,能够测试和修复代码,并构建自定义代理和工作流,从而能够自动执行任何类型的复杂或重复性任务,而不仅仅是软件工程。
-
下一篇
AgentFly —— 基于记忆增强的在线强化学习框架
AgentFly是基于记忆增强的在线强化学习框架,通过记忆库存储经验轨迹并利用神经案例选择策略实现LLM代理的持续适应能力,无需对底层LLM参数进行微调。 该方法将决策过程建模为记忆增强的马尔可夫决策过程(M-MDP),通过非参数或参数化记忆模块存储过往经验,并基于软Q学习优化案例检索策略。 实验表明,该方法通过记忆库的持续更新实现高效在线学习,在复杂工具调用和多轮推理任务中展现出显著优势,为构建具备持续学习能力的通用型LLM代理提供了新范式。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- 2048小游戏-低调大师作品
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- MySQL数据库在高并发下的优化方案
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Docker快速安装Oracle11G,搭建oracle11g学习环境