腾讯开源音乐大模型 SongGeneration 2 发布-低调大师

腾讯开源音乐大模型 SongGeneration 2 发布

2026-03-09 49

腾讯和清华大学人机语音交互实验室联合研发的音乐基础模型 SongGeneration 2 已正式推出。公告称，其核心优越性在于对底层架构和训练策略的全面升级，赋予了 SongGeneration 2 突破性的三大优势：

高音乐性：不仅旋律优美连贯，更能处理复杂的多轨编曲与空间层次。
高歌词准确性：大幅降低幻觉，实现清晰、准确的多语种咬字跟唱。
优秀的可控能力：精准遵循文本描述、音频提示等多种指令，深度控制音乐风格。

评估结果表明，在整体质量(Overall Quality)、旋律(Melody)、编曲 (Arrangement)、乐器音质(Sound Quality-Instrument)、人声音质(Sound Quality-Vocal) 以及结构(Structure) 这6 个评价维度中，SongGeneration 2 均呈现出断崖式领先，显著超越了包括 ACE-Step 1.5、HeartMula、YUE、LeVo以及DiffRhythm 2在内的所有主流开源模型。

实验数据显示，SongGeneration 2 的整体生成质量已成功对齐商业级能力。在整体质量、旋律、编曲等多个维度上，SongGeneration 2 的表现甚至超过了MiniMax 2.5。

除了质量与旋律的提升，评估还证明了模型具有出色的歌词遵循能力。SongGeneration 2的音素错误率(PER)仅为8.55%，仅次于MiniMax 2.5 (7.8%)，显著优于顶尖商业模型Suno v5 (12.4%)和 Mureka v8 (9.96%)，并在曲风、情绪、乐器三大维度的控制上逼近了商业顶级水平。

SongGeneration 2 基于混合式 LLM-扩散架构：

“双核”分工协作：语言模型（LeLM）作为“作曲大脑”，负责统筹全局的音乐结构与演奏细节（解决如何演唱与演奏的问题）；而扩散模型（Diffusion）则担任“高保真渲染器”，在语言模型的隐式指导下，合成极其复杂的声学细节。
首创分层表征结构：为了兼顾音乐性、稳定性与音质，语言模型采用了并行建模的设计：
- 混合表征（Mixed Tokens）：用于指导模型捕捉高层级的旋律、结构等核心语义信息。
- 多轨表征（Dual-Track Tokens）：分别代表人声和伴奏轨道，在语义信息的基础上进一步确定不同轨道局部的细粒度声学变化。

目前，包含4B参数的SongGeneration-v2-large模型已正式开源。它支持中英文等多语种生成，并通过文本描述、音频提示和风格预设提供多样化的控制方式。该模型可在配备22GB显存的消费级硬件上本地流畅运行，实现约0.82的RTF。

为了实现即时体验，项目团队同步在HuggingFace Space平台提供SongGeneration-v2-Fast版本，该版本牺牲了一定的音质但换来了较快的生成速度 (可以在一分钟内生成一首完整歌曲)。

接下来其还将推出支持12G显存、RTF约为0.69的Medium 模型，并逐步开源自动化评估框架等核心组件。

微信关注我们

原文链接：https://www.oschina.net/news/408891

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

攻击者通过“提示词注入”强制让 4000 台电脑安装 OpenClaw

近期安全研究人员披露了一起名为“Clinejection”的攻击事件：攻击者仅通过一句隐藏在 GitHub Issue 标题中的自然语言指令，就成功让 AI 编程工具发布恶意软件，并最终在约 4000 名开发者的电脑上自动安装了另一个 AI Agent——OpenClaw。据介绍，这起攻击针对开源 AI 编程工具Cline 的自动化工作流程而策划。Cline 使用 AI 大模型（Claude）自动处理 GitHub Issue，例如分类问题或执行简单维护任务。攻击者发现，这一流程存在关键漏洞：大模型会把 Issue 标题当作任务指令执行。攻击流程大致如下：攻击者提交一个带有提示注入（prompt injection）的 GitHub Issue 标题 AI 问题处理机器人读取标题并误认为是合法任务机器人执行指令，从攻击者指定仓库安装 npm 包攻击者利用缓存投毒等方式影响 CI/CD 构建流程在夜间发布流程中窃取 npm 发布凭证利用凭证发布被篡改的 Cline 2.3.0 版本新版本在安装时自动执行脚本，全局安装 AI Agent OpenClaw 在该恶意版本上线的...

2026-03-09

44

腾讯电脑管家团队基于 OpenClaw 打造了名为“QClaw”的本地 AI 助手，支持 Mac &Windows 双端。用户可以通过微信直接对话，远程操控电脑，让 AI 帮你干活 —— 数据全部留在本地，隐私安全有保障。内测邀请码申请：https://wj.qq.com/s2/25871229/abe7/ QClaw 目前处于内测阶段，根据目前流出的内测介绍，QClaw 最核心的产品形态是一个本地一键启动包。下载安装之后，可以在本地电脑上轻松部署“龙虾”。如果你之前本机已经装过 OpenClaw，还可以直接一键关联。据悉，QClaw 可默认关联到 Kimi、Minimax、GLM、DeepSeek 等内置模型，还可让用户自定义大模型。此外，QClaw 还可以一键直连微信，并打通了 QQ。也就是说，用户可以在微信、QQ 中与 OpenClaw 直接对话，要求其远程操控电脑完成任务。 QClaw 官网：https://claw.guanjia.qq.com/

2026-03-09

57

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。