腾讯 AI Lab 发布多模态音频生成工具 AudioGenie-低调大师

腾讯 AI Lab 发布多模态音频生成工具 AudioGenie

2025-08-20 248

腾讯 AI Lab 推出一项名为 AudioGenie 的新型无训练多智能体系统，为多模态到多音频（MM2MA）生成领域带来重大突破。

该系统能从视频、文本、图像等多模态输入中，精准合成音效、语音、音乐、歌曲等多种音频，有效解决了该领域长期面临的高质量配对数据稀缺、多任务学习框架薄弱等核心挑战。

AudioGenie 框架如下：

https://audiogenie.github.io/

AudioGenie 采用双层架构，由生成团队与监督团队组成。生成团队通过细粒度任务分解和自适应混合专家（MoE）协作机制，实现对多模态输入的深度理解与动态模型选择，并借助试错迭代优化模块完成自我修正；监督团队则通过反馈循环确保音频的时空一致性并验证输出质量。

此外，研究团队还构建了首个 MM2MA 任务基准数据集 MA-Bench，包含 198 个带多类型音频标注的视频。实验表明，AudioGenie 在 8 项任务的 9 个指标中均达到当前最优或可比性能，用户研究进一步证实其在音频质量、准确性、上下文对齐及美感上的显著优势，为跨模态音频生成应用开辟了新路径。

微信关注我们

原文链接：https://www.oschina.net/news/367426

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

德国联邦最高法院裁定重审广告拦截插件版权争议

德国联邦最高法院近日的一项判决，再次引发了关于浏览器广告拦截插件是否涉及版权侵权的讨论。此次争议源于媒体企业Axel Springer对知名广告拦截工具Adblock Plus的开发公司Eyeo提起的诉讼。Axel Springer认为，广告拦截插件影响了其网站的广告收益，并指出插件在浏览器中运行的行为构成了对版权的侵犯。该观点的核心在于，网站所使用的HTML和CSS代码被认为是一种受版权保护的计算机程序，而广告拦截插件在运行过程中修改了浏览器的执行结构，例如文档对象模型（DOM）、样式表对象模型（CSSOM）以及页面渲染树，这被解读为未经授权的复制与更改。在此之前，汉堡的初级法院并未支持Axel Springer的主张，但此次联邦最高法院的裁决认为，此前的判决存在不足之处，因此推翻了部分决定，并将案件发回进行进一步审理。 Mozilla公司负责知识产权和产品事务的高级顾问Daniel Nazer对此表示，由于这一案件涉及复杂的技术背景，法院的相关决定可能会对其他浏览器扩展产生影响，甚至影响用户在使用浏览器时的选择自由。他指出，用户希望通过浏览器或插件修改网页内容的原因多种多样...

2025-08-20

195

谷歌近日宣布，Google Docs 推出了一项全新的功能，用户现在可以通过 AI 生成语音来朗读他们的文档。此功能旨在提升用户的阅读体验，使得信息的获取更加便捷和生动。在这一功能的使用过程中，用户可以自定义 AI 的音频输出，包括选择不同的声音和调整播放速度。这种个性化设置能够帮助用户根据自己的喜好来选择最适合的听觉体验，使得文档内容的传达更具吸引力。不仅仅是文档的创建者可以使用这一功能，其他读者也能够轻松访问共享文档的 AI 生成音频。用户只需在工具菜单中选择 “音频” 选项，再点击 “收听此标签” 即可开始聆听。此外，文档的作者也可以通过插入音频按钮，将可自定义的音频添加到文档中，读者点击按钮后即可开始收听。这种设计让阅读和分享文档变得更加有趣。谷歌早在四月份就曾透露将推出将文档转换为 AI 播客的计划，而这次的新功能则提供了一个更直接的听取文档内容的方式，特别是对于那些希望聆听自己创作的内容的用户。目前，该功能仅支持在桌面设备上生成英文文档的音频版本。谷歌目前正向拥有商业、企业或教育计划的 Workspace 用户，以及订阅 AI Pro 和 Ultra 的用户推出此功...

2025-08-20

256

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。