阿里通义开源实首个音频生成模型 ThinkSound-低调大师

阿里通义开源实首个音频生成模型 ThinkSound

2025-07-07 162

通义实验室首个音频生成模型 ThinkSound 现已正式开源，将打破“静音画面”的想象力局限。

该模型首次把多模态大模型的思维链推理引入音频生成领域，让AI可以像专业音效师一样逐步思考，捕捉视觉细节，生成与画面同步的高保真音频。

目前，ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源，开发者可免费下载和体验。

据介绍，ThinkSound 首次将 CoT（Chain-of-Thought，思维链）应用到音频生成领域，让 AI 学会一步步“想清楚”画面事件与声音之间的关系，从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”，而是真正“听懂画面”。

据悉，AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景，为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力，研究团队设计了一套精细化的数据筛选流程，包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验，层层把关以保障数据集的整体质量。

微信关注我们

原文链接：https://www.oschina.net/news/359225

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Thorium —— 地球上最快的浏览器

适用于 Linux、Windows、MacOS、Android 和 Raspberry Pi 的Chromium分支，以放射性元素No. 90命名。亮点编译器优化包括 SSE4.2、AVX、AES 以及对 CFLAGS、LDFLAGS、thinLTO flag、import_instr_limit flag 和 PGO 以及其他编译器 flag 的修改。 LLVM LOOP 优化作为 -mllvm flag 在此处了解有关这些编译器优化及其工作原理的更多信息。 Linux 和 Windows 的 UI 更改和补丁可修复错误、增强可用性并加强隐私/安全性。与原版 Chromium 相比，性能提升8-38%，具体取决于基准测试和操作系统。参阅PATCHES.md，详细了解与原版 Chromium 相比在性能、安全性和易用性方面的所有改进。

2025-07-07

288

上海开源创新年度盛会——2025上海开源创新菁英荟于2025年6月28日在上海举办，会议由上海开源信息技术协会主办，来自开源社区、科研机构、产业界的专家学者围绕开源如何引领千行百业智能化转变展开对话。会上公布了优秀开源项目奖评选结果，Excelize 开源基础库荣获 2025 上海开源创新菁英奖——优秀开源项目奖。 Excelize 是用于操作电子表格办公文档的开源基础库，开源地址： github.com/xuri/excelize，遵循 BSD 3-clause 开源协议，基于 ISO/IEC 29500 国际标准。可以使用它来读取、写入由 Excel、WPS、OpenOffice 等办公软件创建的电子表格文档。支持 XLAM / XLSM / XLSX / XLTM / XLTX 等多种文档格式，高度兼容带有样式、图片 (表)、透视表、切片器等复杂组件的文档，并提供流式读写支持，用于处理包含大规模数据的工作簿。可应用于各类报表平台、云计算、边缘计算等系统。自 2016 年开源以来已成为云原生应用尤其是 Go 语言开发者在处理电子表格办公文档时的热门选择，正在被广泛应用于大型互联网公...

2025-07-07

171

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。