上海 AI 实验室联合港中大(深圳)开源音频生成平台 Amphion
上海人工智能实验室(上海AI实验室)与香港中文大学(深圳)联合团队推出 AI 音频生成平台安菲翁(Amphion)。现已开源并提供免费商用。
其不仅具备语音及歌声合成转换、音效及音乐生成等多种能力,更可实现转换过程可视化,有效地降低了应用门槛,助力更广泛的开发者进行AI音频研发。
Amphion为古希腊神话中的传奇音乐家,传说其弹奏的优美琴声可让顽石感灵。上海AI实验室联合团队借此为AI音频生成平台命名,希望通过AI技术的创新为音频领域注入全新的研究思路,开源开放,“声”生不息。
集成经典模型架构,实现多项生成任务
为帮助初级开发者入门AI音频生成研究并使研究过程可复现,Amphion将当前多个经典模型架构集中于统一平台,使其可实现多项音频生成任务。
歌声转换 (SVC, Singing Voice Conversion)
歌声转换是指通过 AI 技术,将一位演唱者的音色转变为另一位演唱者。该技术涉及信号处理、机器学习、深度学习等领域。
Amphion系统集成了经典的特征提取模型用于SVC任务,包括经典的扩散模型、VITS模型及OpenAI的Whisper模型等。基于扩散的架构使用双向扩张 CNN作为后端,并支持DDPM、DDIM、PNDM等多种采样算法。此外,Amphion还支持基于一致性模型的单步推理。
目前,Amphion的特征设计已被当前业内流行的音频生成项目So-VITS-SVC 5.0借鉴。
文生语音(TTS, Text To Speech)
文生语音即输入文字转成相应语音的技术。当前,该模块主要采用了深度学习技术,将文本转换成自然流畅的高拟真度语音。在TTS任务模块,Amphion 系统集成了经典 FastSpeech2 模型、VITS 模型以及zero-shot 语音合成技术,即 Vall-E,NaturalSpeech2。
文生音频(TTA, Text To Audio)
文生音频指将文字输入转为音乐、场景音效等特定音频的技术。Amphion 集成了当下主流的文本驱动音频生成模型架构,即基于 VAE Encoder、Decoder 和 Latent Diffusion 的文本驱动的音频生成算法。在该架构下,Latent Diffusion 扩散模型以 T5 编码后的文本为输入,根据文本的指引生成对应的音频效果。
文生音频模型或将对文化创作产生积极深远的影响,从业者或可利用此项技术,根据特定需求生成场景音效,省去从头采集环节,提升生产效率。
声码器(Vocoder)是产生高质量音频信号的重要模块。为确保所生成音频的高音质输出,Amphion集成了目前广泛使用的神经声码器(Neural Vocoders),包括BigVGAN、HiFi-GAN、DiffWave等主流声码器。
技术报告显示,Amphion中的HiFi-GAN声码器在多项指标上领先于当前热门开源工具。
可视化功能
与传统的音频开源工具不同,Amphion提供了生成过程可视化及音频可视化功能。联合团队旨在通过可视化,使初级开发者者更好地理解模型的原理和细节。下图为在扩散模型中的SVC任务,形象地呈现出由一位歌手音色转换为另外一位歌手音色的渐变过程。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
GitHub 多项服务出现故障
GitHub 多项服务昨天出现了故障,具体表现为众多 API 都出现了 HTTP 5xx 错误,错误率上升了 1%~5%,涉及的服务包括但不限于: Codespaces Packages Webhooks Git 操作 Pages API 请求 Actions Pull Requests 从事故报告页面来看,GitHub 当时的解决方案是将相关问题隔离到一个数据中心进行处理。 不知道 GitHub 最近频发故障是否跟升级 MySQL 有关?GitHub.com 跑了 1200 多台 MySQL 主机,如何无缝升级到 8.0? 延伸阅读:GitHub 解释近期频繁宕机原因:MySQL 不堪重负
- 下一篇
中文 JDK 教程网站正式上线,助力开发者掌握 Java 编程语言
为了满足日益增长的Java开发者学习需求,对官方英文文档理解困难,致力于提供优质编程教育的网站《存在码》宣布推出全新的中文JDK教程网站。这一网站的上线标志着学习Java编程语言的全新起点,为开发者们提供了丰富而易于理解的学习资源。 网站特色: 全面教程: 中文JDK教程网站提供了覆盖Java各个方面的详尽教程,旨在帮助开发者建立坚实的编程基础。 实用示例: 数百个实用的示例代码将帮助开发者深入理解Java语言的概念和技巧,实践中学习。 学习路径: 精心设计的学习路径,从入门到精通,让开发者能够有系统地提升技能水平。 及时更新: 网站内容将根据Java平台的最新发展和技术趋势进行及时翻译更新,确保学习者始终保持与行业同步。 网站创始人表示:“我们创建这个网站的目标是为中文用户提供一个高质量、易于理解的Java教育平台。我们深知学习编程的挑战,希望通过这个平台让更多人轻松入门,深入学习Java编程语言。” 现在,开发者们可以通过访问 中文JDK教程网站 开始他们的Java编程之旅。 关于中文JDK教程网站: 中文JDK教程网站是一个专注于为中文用户提供Java编程语言教育的在线学习平台。...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题