阿里通义开源实首个音频生成模型 ThinkSound
通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。
该模型首次把多模态大模型的思维链推理引入音频生成领域,让AI可以像专业音效师一样逐步思考,捕捉视觉细节,生成与画面同步的高保真音频。
目前,ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源,开发者可免费下载和体验。
- https://github.com/FunAudioLLM/ThinkSound
- https://huggingface.co/spaces/FunAudioLLM/ThinkSound
- https://www.modelscope.cn/studios/iic/ThinkSound
据介绍,ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。
据悉,AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验,层层把关以保障数据集的整体质量。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Thorium —— 地球上最快的浏览器
适用于 Linux、Windows、MacOS、Android 和 Raspberry Pi 的Chromium分支,以放射性元素No. 90命名。 亮点 编译器优化包括 SSE4.2、AVX、AES 以及对 CFLAGS、LDFLAGS、thinLTO flag、import_instr_limit flag 和 PGO 以及其他编译器 flag 的修改。 LLVM LOOP 优化作为 -mllvm flag 在此处了解有关这些编译器优化及其工作原理的更多信息。 Linux 和 Windows 的 UI 更改和补丁可修复错误、增强可用性并加强隐私/安全性。 与原版 Chromium 相比,性能提升8-38%,具体取决于基准测试和操作系统。参阅PATCHES.md,详细了解与原版 Chromium 相比在性能、安全性和易用性方面的所有改进。
- 下一篇
Excelize 荣获 2025 上海开源创新菁英奖
上海开源创新年度盛会——2025上海开源创新菁英荟于2025年6月28日在上海举办,会议由上海开源信息技术协会主办,来自开源社区、科研机构、产业界的专家学者围绕开源如何引领千行百业智能化转变展开对话。会上公布了优秀开源项目奖评选结果,Excelize 开源基础库荣获 2025 上海开源创新菁英奖——优秀开源项目奖。 Excelize 是用于操作电子表格办公文档的开源基础库,开源地址: github.com/xuri/excelize,遵循 BSD 3-clause 开源协议,基于 ISO/IEC 29500 国际标准。可以使用它来读取、写入由 Excel、WPS、OpenOffice 等办公软件创建的电子表格文档。支持 XLAM / XLSM / XLSX / XLTM / XLTX 等多种文档格式,高度兼容带有样式、图片 (表)、透视表、切片器等复杂组件的文档,并提供流式读写支持,用于处理包含大规模数据的工作簿。可应用于各类报表平台、云计算、边缘计算等系统。自 2016 年开源以来已成为云原生应用尤其是 Go 语言开发者在处理电子表格办公文档时的热门选择,正在被广泛应用于大型互联网公...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装