腾讯开源歌曲生成模型 SongBloom
腾讯 AI Lab 与香港中文大学(深圳)、南京大学联合研发开源了一个歌曲生成模型 SongBloom,且相关研究成果被全球顶级人工智能会议NeurIPS 2025录用。 根据介绍,作为一款聚焦歌曲生成的创新模型,SongBloom 只需输入 10 秒参考样本与对应歌词,即可生成双通道/48kHz, 2 分 30 秒的完整歌曲。在主客观双重评测中,SongBloom 不仅全面超越现有开源模型,更在音频质量与歌词准确性两大核心维度上取得了非常优秀的效果;同时在音乐性表现上,也达到了接近领域最佳水平(SOTA)的高度。 SongBloom 实现的两大技术创新点: 首次将自回归扩散模型引入长时歌曲生成任务。模型以离散的 sketch token 作为 “链式思维” 式中间提示,结合 VAE latent(变分自编码器潜在空间)输出最终结果 —— 这一设计既完整保留了自回归模型在结构连贯性、音素对齐上的优势,又充分发挥了扩散模型在连续特征生成中对音质的提升作用,最终实现 “结构稳、细节满、表现力强” 的歌曲生成效果。 团队创新提出交替生成范式(interleaved generation)。该...
