您现在的位置是:首页 > 文章详情

小米 Kaldi 团队开源零样本语音合成模型模型 ZipVoice

日期:2025-09-11点击:5

近日,小米集团新一代 Kaldi 团队发布了基于 Flow Matching 架构的ZipVoice系列语音合成(TTS)模型——ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)。

作为 zipformer 在语音生成任务上的应用和探索,ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。

ZipVoice系列的模型文件、训练代码和推理代码以及6.8k小时的语音对话数据集OpenDialog已全部开源:https://github.com/k2-fsa/ZipVoice

Zipvoice 论文:https://arxiv.org/pdf/2506.13053

样例体验请访问:https://zipvoice.github.io

原文链接:https://www.oschina.net/news/371625
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章