上海 AI 实验室联合港中大（深圳）开源音频生成平台 Amphion-低调大师

上海 AI 实验室联合港中大（深圳）开源音频生成平台 Amphion

2024-01-10 537

上海人工智能实验室（上海AI实验室）与香港中文大学（深圳）联合团队推出 AI 音频生成平台安菲翁（Amphion）。现已开源并提供免费商用。

其不仅具备语音及歌声合成转换、音效及音乐生成等多种能力，更可实现转换过程可视化，有效地降低了应用门槛，助力更广泛的开发者进行AI音频研发。

Amphion为古希腊神话中的传奇音乐家，传说其弹奏的优美琴声可让顽石感灵。上海AI实验室联合团队借此为AI音频生成平台命名，希望通过AI技术的创新为音频领域注入全新的研究思路，开源开放，“声”生不息。

集成经典模型架构，实现多项生成任务

为帮助初级开发者入门AI音频生成研究并使研究过程可复现，Amphion将当前多个经典模型架构集中于统一平台，使其可实现多项音频生成任务。

歌声转换（SVC, Singing Voice Conversion）

歌声转换是指通过 AI 技术，将一位演唱者的音色转变为另一位演唱者。该技术涉及信号处理、机器学习、深度学习等领域。

Amphion系统集成了经典的特征提取模型用于SVC任务，包括经典的扩散模型、VITS模型及OpenAI的Whisper模型等。基于扩散的架构使用双向扩张 CNN作为后端，并支持DDPM、DDIM、PNDM等多种采样算法。此外，Amphion还支持基于一致性模型的单步推理。

目前，Amphion的特征设计已被当前业内流行的音频生成项目So-VITS-SVC 5.0借鉴。

文生语音（TTS, Text To Speech）

文生语音即输入文字转成相应语音的技术。当前，该模块主要采用了深度学习技术，将文本转换成自然流畅的高拟真度语音。在TTS任务模块，Amphion 系统集成了经典 FastSpeech2 模型、VITS 模型以及zero-shot 语音合成技术，即 Vall-E，NaturalSpeech2。

文生音频（TTA, Text To Audio）

文生音频指将文字输入转为音乐、场景音效等特定音频的技术。Amphion 集成了当下主流的文本驱动音频生成模型架构，即基于 VAE Encoder、Decoder 和 Latent Diffusion 的文本驱动的音频生成算法。在该架构下，Latent Diffusion 扩散模型以 T5 编码后的文本为输入，根据文本的指引生成对应的音频效果。

文生音频模型或将对文化创作产生积极深远的影响，从业者或可利用此项技术，根据特定需求生成场景音效，省去从头采集环节，提升生产效率。

声码器（Vocoder）是产生高质量音频信号的重要模块。为确保所生成音频的高音质输出，Amphion集成了目前广泛使用的神经声码器（Neural Vocoders），包括BigVGAN、HiFi-GAN、DiffWave等主流声码器。

技术报告显示，Amphion中的HiFi-GAN声码器在多项指标上领先于当前热门开源工具。

可视化功能

与传统的音频开源工具不同，Amphion提供了生成过程可视化及音频可视化功能。联合团队旨在通过可视化，使初级开发者者更好地理解模型的原理和细节。下图为在扩散模型中的SVC任务，形象地呈现出由一位歌手音色转换为另外一位歌手音色的渐变过程。

微信关注我们

原文链接：https://www.oschina.net/news/275031

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GitHub 多项服务出现故障

GitHub 多项服务昨天出现了故障，具体表现为众多 API 都出现了 HTTP 5xx 错误，错误率上升了 1%~5%，涉及的服务包括但不限于： Codespaces Packages Webhooks Git 操作 Pages API 请求 Actions Pull Requests 从事故报告页面来看，GitHub 当时的解决方案是将相关问题隔离到一个数据中心进行处理。不知道 GitHub 最近频发故障是否跟升级 MySQL 有关？GitHub.com 跑了 1200 多台 MySQL 主机，如何无缝升级到 8.0？延伸阅读：GitHub 解释近期频繁宕机原因：MySQL 不堪重负

2024-01-10

387

为了满足日益增长的Java开发者学习需求，对官方英文文档理解困难，致力于提供优质编程教育的网站《存在码》宣布推出全新的中文JDK教程网站。这一网站的上线标志着学习Java编程语言的全新起点，为开发者们提供了丰富而易于理解的学习资源。网站特色：全面教程：中文JDK教程网站提供了覆盖Java各个方面的详尽教程，旨在帮助开发者建立坚实的编程基础。实用示例：数百个实用的示例代码将帮助开发者深入理解Java语言的概念和技巧，实践中学习。学习路径：精心设计的学习路径，从入门到精通，让开发者能够有系统地提升技能水平。及时更新：网站内容将根据Java平台的最新发展和技术趋势进行及时翻译更新，确保学习者始终保持与行业同步。网站创始人表示：“我们创建这个网站的目标是为中文用户提供一个高质量、易于理解的Java教育平台。我们深知学习编程的挑战，希望通过这个平台让更多人轻松入门，深入学习Java编程语言。” 现在，开发者们可以通过访问中文JDK教程网站开始他们的Java编程之旅。关于中文JDK教程网站：中文JDK教程网站是一个专注于为中文用户提供Java编程语言教育的在线学习平台。...

2024-01-10

405

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。