腾讯 AI Lab 发布多模态音频生成工具 AudioGenie
腾讯 AI Lab 推出一项名为 AudioGenie 的新型无训练多智能体系统,为多模态到多音频(MM2MA)生成领域带来重大突破。
该系统能从视频、文本、图像等多模态输入中,精准合成音效、语音、音乐、歌曲等多种音频,有效解决了该领域长期面临的高质量配对数据稀缺、多任务学习框架薄弱等核心挑战。
AudioGenie 框架如下:
https://audiogenie.github.io/
AudioGenie 采用双层架构,由生成团队与监督团队组成。生成团队通过细粒度任务分解和自适应混合专家(MoE)协作机制,实现对多模态输入的深度理解与动态模型选择,并借助试错迭代优化模块完成自我修正;监督团队则通过反馈循环确保音频的时空一致性并验证输出质量。
此外,研究团队还构建了首个 MM2MA 任务基准数据集 MA-Bench,包含 198 个带多类型音频标注的视频。实验表明,AudioGenie 在 8 项任务的 9 个指标中均达到当前最优或可比性能,用户研究进一步证实其在音频质量、准确性、上下文对齐及美感上的显著优势,为跨模态音频生成应用开辟了新路径。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
德国联邦最高法院裁定重审广告拦截插件版权争议
德国联邦最高法院近日的一项判决,再次引发了关于浏览器广告拦截插件是否涉及版权侵权的讨论。 此次争议源于媒体企业Axel Springer对知名广告拦截工具Adblock Plus的开发公司Eyeo提起的诉讼。Axel Springer认为,广告拦截插件影响了其网站的广告收益,并指出插件在浏览器中运行的行为构成了对版权的侵犯。 该观点的核心在于,网站所使用的HTML和CSS代码被认为是一种受版权保护的计算机程序,而广告拦截插件在运行过程中修改了浏览器的执行结构,例如文档对象模型(DOM)、样式表对象模型(CSSOM)以及页面渲染树,这被解读为未经授权的复制与更改。 在此之前,汉堡的初级法院并未支持Axel Springer的主张,但此次联邦最高法院的裁决认为,此前的判决存在不足之处,因此推翻了部分决定,并将案件发回进行进一步审理。 Mozilla公司负责知识产权和产品事务的高级顾问Daniel Nazer对此表示,由于这一案件涉及复杂的技术背景,法院的相关决定可能会对其他浏览器扩展产生影响,甚至影响用户在使用浏览器时的选择自由。 他指出,用户希望通过浏览器或插件修改网页内容的原因多种多样...
- 下一篇
谷歌 Docs 上线 AI 语音朗读功能
谷歌近日宣布,Google Docs 推出了一项全新的功能,用户现在可以通过 AI 生成语音来朗读他们的文档。此功能旨在提升用户的阅读体验,使得信息的获取更加便捷和生动。 在这一功能的使用过程中,用户可以自定义 AI 的音频输出,包括选择不同的声音和调整播放速度。这种个性化设置能够帮助用户根据自己的喜好来选择最适合的听觉体验,使得文档内容的传达更具吸引力。 不仅仅是文档的创建者可以使用这一功能,其他读者也能够轻松访问共享文档的 AI 生成音频。用户只需在工具菜单中选择 “音频” 选项,再点击 “收听此标签” 即可开始聆听。此外,文档的作者也可以通过插入音频按钮,将可自定义的音频添加到文档中,读者点击按钮后即可开始收听。这种设计让阅读和分享文档变得更加有趣。 谷歌早在四月份就曾透露将推出将文档转换为 AI 播客的计划,而这次的新功能则提供了一个更直接的听取文档内容的方式,特别是对于那些希望聆听自己创作的内容的用户。目前,该功能仅支持在桌面设备上生成英文文档的音频版本。 谷歌目前正向拥有商业、企业或教育计划的 Workspace 用户,以及订阅 AI Pro 和 Ultra 的用户推出此功...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2全家桶,快速入门学习开发网站教程
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS关闭SELinux安全模块