阿里开源首个音频生成模型 ThinkSound
阿里巴巴通义实验室宣布正式开源其首款音频生成模型ThinkSound,将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成——不只是“看图配音”,而是真正“听懂画面”。
根据介绍,为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集 AudioCoT。
AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验,层层把关以保障数据集的整体质量。
在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。
ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果——从理解整体画面,到聚焦具体物体,再到响应用户指令。
下图展示了 ThinkSound 的完整技术架构,包括多模态大语言模型和基于流匹配的统一音频生成模型的工作流程。
测试结果表明,在 VGGSound 测试集上,ThinkSound的核心指标相比 MMAudio、V2A-Mappe、V-AURA 等现有主流方法均实现了 15% 以上的提升。例如,在 openl3 空间中 Fréchet 距离(FD)上,ThinkSound 相比 MMAudio 的 43.26 降至 34.56(越低越好),接近真实音频分布的相似度提高了 20% 以上;在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了 1.52 和 1.32 的成绩,均为同类模型最佳。
在 MovieGen Audio Bench 测试集上,ThinkSound 的表现大幅领先 Meta 推出的音频生成模型 MovieGenAudio。
接下来,ThinkSound 计划在模型能力、数据构建和应用场景三大方向持续拓展:包括提升推理精度、增强对复杂声学环境的理解、集成更多模态数据以提高泛化能力,并逐步向游戏开发、虚拟现实(VR)、增强现实(AR)等沉浸式交互场景延伸,为大家带来更丰富的声音体验。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
红帽发布面向商业开发者的 RHEL 发行版
红帽宣布推出 RHEL for Business Developers,这是其 RHEL Developer Program 的扩展,旨在让企业开发者更方便地在不付费的情况下使用 Red Hat Enterprise Linux 进行开发工作。 RHEL for Business Developers 提供自部署服务、无成本访问 Red Hat Enterprise Linux 的方式,适用于组织内部的开发用途。这一 RHEL for Business Developers 作为 RHEL Developer Program 的一部分,补充了其现有的个人开发者订阅服务。 RHEL for Business Developers 仅适用于开发和测试目的,允许最多 25 个许可(物理、虚拟或云实例),相比个人开发者计划的 16 个有所提升。 Red Hat Enterprise Linux for Business Developers 现已进入 GA,详情查看:RedHat.com
- 下一篇
百川智能联合创始人谢剑或将离职,多位联创相继出走
有消息称,百川智能技术联合创始人谢剑将离职。其离职原因尚未公开,下一步动向也暂无明确消息。 据了解,谢剑硕士毕业于武汉大学人工智能方向,2012年获得硕士学位后加入百度,后在职攻读博士,并获得清华大学计算机科学博士学位。谢剑曾是百度集团内最年轻晋升为主任研发架构师的工程师之一,深度参与并推动了凤巢广告、搜索、智能助手等核心 AI 业务的发展。2023 年 3 月,谢剑与王小川共同创立百川智能,担任技术联合创始人。 百川智能近期高管动荡,据不完全统计,目前已经离开的包括联合创始人、模型研发负责人陈炜鹏;商业合伙人、金融事业群总裁邓江;联合创始人、商业化负责人洪涛等。有消息称,百川智能联合创始人茹立云近期也在低调接触外部机会。 今年4月10日,百川智能CEO王小川发布了一封内部信回顾了公司创立两年来的功过得失。对于创业以来的不足,王小川进行了两点反思。 他反思,第一是百川智能战线拉得过长,不够聚焦,“从通用基础模型,到医学增强的推理模型,到百小应和AI医生应用,再到过早进入商业化,极大增加了组织的复杂度。”他在信中反思道。 第二点,虽然2024年中战略会已经明确了聚焦医疗,没有足够透传在医...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Windows10,CentOS7,CentOS8安装Nodejs环境
- 设置Eclipse缩进为4个空格,增强代码规范