腾讯开源歌曲生成模型 SongBloom-低调大师

腾讯开源歌曲生成模型 SongBloom

2025-10-11 210

腾讯 AI Lab 与香港中文大学（深圳）、南京大学联合研发开源了一个歌曲生成模型 SongBloom，且相关研究成果被全球顶级人工智能会议NeurIPS 2025录用。

根据介绍，作为一款聚焦歌曲生成的创新模型，SongBloom 只需输入 10 秒参考样本与对应歌词，即可生成双通道/48kHz, 2 分 30 秒的完整歌曲。在主客观双重评测中，SongBloom 不仅全面超越现有开源模型，更在音频质量与歌词准确性两大核心维度上取得了非常优秀的效果；同时在音乐性表现上，也达到了接近领域最佳水平（SOTA）的高度。

SongBloom 实现的两大技术创新点：

首次将自回归扩散模型引入长时歌曲生成任务。模型以离散的 sketch token 作为 “链式思维” 式中间提示，结合 VAE latent（变分自编码器潜在空间）输出最终结果 —— 这一设计既完整保留了自回归模型在结构连贯性、音素对齐上的优势，又充分发挥了扩散模型在连续特征生成中对音质的提升作用，最终实现 “结构稳、细节满、表现力强” 的歌曲生成效果。

团队创新提出交替生成范式（interleaved generation）。该范式可在 “语义 - 声学” 两类上下文间动态切换，既能牢牢把控歌曲整体结构逻辑，又能精细优化局部音质表现，为音乐 AI 生成研究开辟了全新技术路径。

腾讯方面表示，在客观指标层面，SongBloom 的美学评分不仅远超开源基线模型，更与顶尖商用模型持平甚至实现超越；同时，模型具备极强的歌词 follow 能力，大幅减少 “幻觉生成”（生成内容与歌词不匹配）现象，显著降低了音素错误率（PER），让歌词准确性达到行业新高度。

在主观听感评测中，SongBloom 的表现同样惊艳。得益于 VAE latent 保留的丰富声学细节，其人声音质细腻度直接超越目前顶尖闭源商业模型 Suno-v4.5；而在音乐性上，也达到了媲美甚至超越部分闭源商业模型的水平，让 “AI 生成音乐” 更贴近专业创作质感。

目前相关代码及模型权重已开源。此外，相应的完整240s版本以及文本控制模型也将在后续发布。

微信关注我们

原文链接：https://www.oschina.net/news/376777

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

英特尔高管：公司将重新评估对开源社区的投入

科技媒体 The Register 报道，英特尔数据中心事业部负责人 Kevork Kechichian 近日在亚利桑那州的活动上表示，公司正重新审视其在开源领域的角色和投入方向。 Kechichian 称，英特尔目前在开源基础设施领域拥有“极广的覆盖”，但未来需要“让这些贡献更能为英特尔自身创造价值”，而不是让竞争对手轻易受益。换句话说，英特尔需要确保其竞争对手从其开源贡献中获得的利益不会超过英特尔本身。 Kechichian 强调英特尔不会退出开源，但将更有选择性地决定“在哪些项目、以什么方式”进行贡献。过去几年，英特尔一直是 Linux 内核、编译器与 AI 框架的重要支持者，但随着业务压力和裁员潮的影响，其多个开源软件包（包括加速器驱动和数学库）在主流发行版中已出现无人维护的情况。英特尔参与贡献的多个 Debian/Ubuntu 软件包成为“孤儿项目” 英特尔将终止开发 Clear Linux 英特尔资深 Linux 内核工程师加入 Meta 分析认为，英特尔可能在未来采取“部分闭源”策略，例如保持 API 开源、而对底层性能优化模块保留专有实现。这一变化或将引发社区担忧，...

2025-10-11

171

据 CNBC 报道，苹果正接近与计算机视觉初创公司 Prompt AI 达成交易，收购其团队与技术，而不一定是整体资产或母公司。这是一种典型的 “人才＋技术” 式收购（acqui-hire），用于快速吸纳关键 AI 能力。该媒体获得的音频显示，Prompt 领导层在周四的全体会议上向员工通报了这笔即将进行的交易，并表示那些最终没有加入苹果的员工将被降低薪水，并鼓励他们申请公司的空缺职位。高管们在会议上表示，这家拥有 11 名员工的公司还受到了其他潜在追求者的接洽，其中包括马斯克的xAI 和 Neuralink。 Prompt 成立于 2023 年，其代表产品 Seemour 能通过家庭摄像头识别人、宠物或物体，并用自然语言描述或提醒异常活动。业内分析认为，苹果此次动作意在强化智能家居与视觉 AI 技术布局，可能服务于 HomeKit、摄像头或家庭安全等生态。相比昂贵的整并，苹果正以更灵活的小型收购补强 AI 技术储备，继续追赶在生成式AI与智能设备融合上的竞争。

2025-10-11

264

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。