Meta 发布语音生成 AI 模型:Voicebox

Meta 宣布了一项在语音生成领域的突破性成果:Voicebox。这是一个在各方面都表现非常先进的语音生成 AI 模型,它能够通过上下文学习执行语音生成任务,如编辑、采样和风格转换等,而无需专门训练。

与其他生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练不同。Voicebox 使用一种新方法来仅从原始音频和随附的转录中学习。这种方法提高了模型的灵活性,能够更好地适应各种任务。

Voicebox 采用非自回归的流匹配模型,它被训练用于填充语音,给定音频上下文和文本,并在超过 50000 小时的未经过滤或增强的语音上进行训练。类似于 GPT,Voicebox 可以通过上下文学习执行许多不同的任务,但它更灵活,因为它还可以根据未来的上下文进行条件化。

Voicebox 模型具有多种用途。它可以用于单语言或跨语言的零样本文本到语音合成、噪声去除、内容编辑、风格转换和多样性样本生成。特别地,Voicebox 在可理解性(5.9% 对 1.9% 的单词错误率)和音频相似度(0.580 对 0.681)方面优于当前最先进的英语模型 VALL-E,同时速度比它快 20 倍。

对于跨语言风格迁移,Voicebox 优于 YourTTS,将平均单词错误率从 10.9% 降低到 5.2%,并将音频相似度从 0.335 提高到 0.481。

目前可以在voicebox.metademolab.com查看模型演示。

由于潜在的滥用风险,目前并未公开提供 Voicebox 模型或代码。尽管如此,他们仍然分享了音频样本和一篇研究论文,详细介绍了他们的方法和所取得的结果。

详细介绍:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/245895/meta-voicebox-generative-ai-model-speech

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。