Meta 发布语音生成 AI 模型：Voicebox-低调大师

Meta 发布语音生成 AI 模型：Voicebox

2023-06-19 933

Meta 宣布了一项在语音生成领域的突破性成果：Voicebox。这是一个在各方面都表现非常先进的语音生成 AI 模型，它能够通过上下文学习执行语音生成任务，如编辑、采样和风格转换等，而无需专门训练。

与其他生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练不同。Voicebox 使用一种新方法来仅从原始音频和随附的转录中学习。这种方法提高了模型的灵活性，能够更好地适应各种任务。

Voicebox 采用非自回归的流匹配模型，它被训练用于填充语音，给定音频上下文和文本，并在超过 50000 小时的未经过滤或增强的语音上进行训练。类似于 GPT，Voicebox 可以通过上下文学习执行许多不同的任务，但它更灵活，因为它还可以根据未来的上下文进行条件化。

Voicebox 模型具有多种用途。它可以用于单语言或跨语言的零样本文本到语音合成、噪声去除、内容编辑、风格转换和多样性样本生成。特别地，Voicebox 在可理解性（5.9% 对 1.9% 的单词错误率）和音频相似度（0.580 对 0.681）方面优于当前最先进的英语模型 VALL-E，同时速度比它快 20 倍。

对于跨语言风格迁移，Voicebox 优于 YourTTS，将平均单词错误率从 10.9% 降低到 5.2%，并将音频相似度从 0.335 提高到 0.481。

目前可以在voicebox.metademolab.com查看模型演示。

由于潜在的滥用风险，目前并未公开提供 Voicebox 模型或代码。尽管如此，他们仍然分享了音频样本和一篇研究论文，详细介绍了他们的方法和所取得的结果。

详细介绍：https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
论文：https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

微信关注我们

原文链接：https://www.oschina.net/news/245895/meta-voicebox-generative-ai-model-speech

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Meta AI 负责人：ChatGPT 等 AI 系统还没有狗聪明

Meta 的首席 AI 科学家 Yann LeCun 在巴黎 Viva Tech 会议上发言时表示，当前的人工智能系统（如 ChatGPT 等）尚未达到人类水平的智能，甚至还不如狗聪明。他认为，LLM 并不是真正的智能，因为 LLM 无法理解、互动或理解现实，只能依靠语言训练来产生输出。“那些系统仍然非常有限，它们对现实世界的基本现实没有任何了解；因为它们纯粹是在文本上训练的，大量的文本。大部分人类知识与语言无关……所以这部分人类经验不会被人工智能捕捉到。” 并进行了举例称，一个人工智能系统现在可以顺利通过美国的律师资格考试，但却无法安装一个洗碗机 —— 一项 10 岁孩子可以"在10分钟内学会"的技能。 LeCun 还在另一个有关当前 AI 局限性的举例中指出，五个月大的婴儿会看到一个漂浮的物体，但不会思考太多。然而九个月大的婴儿在看到这个物品同时还会感到惊讶，因为他能意识到一个物体不应该漂浮。我们"不知道今天如何用机器再现这种能力。在我们能够做到这一点之前，我们不会拥有人类水平的智能，也无法达到狗或猫的水平。" 目前，Meta 公司正在致力于在视频上训练 AI。针对有关未来的担忧...

2023-06-19

904

FreeBSD 项目庆祝其开源 BSD 操作系统项目成立 30 周年。 FreeBSD 是一款开源操作系统，于 1993 年在加利福尼亚大学伯克利分校开发出来，目前每天都被全球数十亿人使用，并对我们产生了积极的影响。许多顶级的科技公司和产品都在使用它，包括提供电影流媒体服务的 Netflix，提供消息服务的 WhatsApp，以及强大的 PlayStation 4 索尼游戏机。 1993 年 6 月 19 日，David Greenman, Jordan Hubbard 和 Rod Grimes 发布了 BSD 4.3 的分支，并为这个从 386BSD 诞生的项目选择了 “ FreeBSD ”名称。（但其实 FreeBSD 的第一个正式版本直到 1993 年 11 月才发布） FreeBSD 基金会将六月的公告留给了 FreeBSD 30 周年庆，并推出了一系列活动，比如在6 月 19 日发行《FreeBSD 期刊 30 周年纪念特刊》推出 freeBSD 时间线：以及推出 30 周年纪念品：还有其他的一些纪念活动，可以在基金会官网查看。

2023-06-19

897

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。