Meta 发布开源 AI 工具 AudioCraft，文本自动生成音乐-低调大师

Meta 发布开源 AI 工具 AudioCraft，文本自动生成音乐

2023-08-03 890

Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft，该工具可以帮助用户根据文本提示创作音乐和音频。

Meta 表示，这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉，可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频，或更复杂的音乐，适用于游戏开发、社交、视频配音等业务场景。

根据官网的介绍，MusicGen 接受过 Meta 拥有的和特别授权的音乐训练，可以从文本提示生成音乐，而 AudioGen 接受过公共音效训练，可从文本提示生成音频，比如模拟狗叫或脚步声；再加上 EnCodec 编解码器的改进版本，用户可以更高效率地生成更高质量的音乐。

总结就是，Audiocraft 由 MusicGen、AudioGen 和 EnCodec 三个模型组合而成：

MusicGen是一个文本生成音乐的自回归语言模型，大约使用了40万份文本描述和元数据的录音，总计2万小时的授权音乐进行训练。可通过文本自动生成摇滚、流行、重金属、RPA等类型音乐。
AudioGen是一个文本生成音频的自回归语言模型，具备分离音频功能，例如，可识别背景声、说话声和物体发出的声音等。这有助于仅使用文本生成音频时，更准确贴近用户的目标音乐。
EnCodec是一个高保真音频、音乐的压缩和解压器，可以用最小的体积尽可能还原原始音乐，这对于打造高质量音频模型来说至关重要。EnCodec由编码器、量化器和解码器三大块组成。
- 编码器，通过获取未压缩的数据，并将其转换为更高维度和更低帧速率的表示。
- 量化器，将编码器生成的“表示”压缩到目标大小，同时保留最重要的信息来重建原始信号。
- 解码器，将压缩信号转换回，与原始信号尽可能相似的波形。因为在低比特率下不可能进行完美的重建，所以，使用了鉴别器来提高音频生成样本的质量。

微信关注我们

原文链接：https://www.oschina.net/news/252174/audiocraft-generative-ai-for-music-and-audio

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源领域 3 项团体标准正式获批发布

全国信标委云计算标准工作组（CCWG）发文称，中电标 2023 年第 21 号团体标准公告已于日前正式发布，《T/CESA 1269-2023 信息技术开源术语与综述》、《T/CESA 1270.1-2023 信息技术开源治理第 1 部分：总体框架》、《T/CESA 1270.4-2023 信息技术开源治理第 4 部分：项目评估模型》3 项开源领域团体标准正式获批发布。具体内容如下：序号标准编号标准名称实施日期 1 T/CESA 1269-2023 信息技术开源术语与综述 2023/8/1 2 T/CESA 1270.1-2023 信息技术开源治理第 1 部分：总体框架 2023/8/1 3 T/CESA 1270.4-2023 信息技术开源治理第 4 部分：项目评估模型 2023/8/1 标准号：T/CESA 1269-2023 标准名称：信息技术开源术语与综述标准范围：本文件界定了信息技术开源相应术语和定义，给出了开源综述。适用于各类组织和个人对开源领域的概念理解和信息交流，为开源标准提供了术语基础。起草单位：中国电子技术标准化研究院、...

2023-08-03

839

本文分享自华为云社区《DTSE Tech Talk｜第35期：解决大模型“开发难”，昇思MindSpore自动并行技术应用实践》，作者华为云社区精选。昇思MindSpore是新一代覆盖端边云全场景的开源AI框架，旨在开创全新的AI编程范式，降低开发者门槛，为开发者打造开发友好、运行高效、部署灵活的AI框架，推动人工智能生态繁荣发展。同时，昇思在致力于大规模自动并行、科学计算支持等特性优化之外，还着力打造学习型社区环境，希望凝聚开发者力量共建社区，与开发者共同学习和成长。昇思MindSpore自动并行技术的实际运用昇思MindSpore具备丰富的并行能力，能轻松完成4096卡集群、万亿参数规模的训练任务，因此支撑了国内多个领域首发大模型的训练，这些大模型涉及知识问答、知识检索、知识推理、阅读理解、文本/视觉/语音多模态、生物制药、遥感、代码生成等。总共支撑20+大模型训练，6个千亿参数大模型，覆盖NLP、Audio、CV、多模态等领域。数据并行对数据进行切分的并行模式，一般按照batch维度切分，将数据分配到各个计算单元（worker）中，进行模型计算。而在昇思MindSpo...

2023-08-03

916

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。