首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/376778

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

腾讯开源歌曲生成模型 SongBloom

腾讯 AI Lab 与香港中文大学(深圳)、南京大学联合研发开源了一个歌曲生成模型 SongBloom,且相关研究成果被全球顶级人工智能会议NeurIPS 2025录用。 根据介绍,作为一款聚焦歌曲生成的创新模型,SongBloom 只需输入 10 秒参考样本与对应歌词,即可生成双通道/48kHz, 2 分 30 秒的完整歌曲。在主客观双重评测中,SongBloom 不仅全面超越现有开源模型,更在音频质量与歌词准确性两大核心维度上取得了非常优秀的效果;同时在音乐性表现上,也达到了接近领域最佳水平(SOTA)的高度。 SongBloom 实现的两大技术创新点: 首次将自回归扩散模型引入长时歌曲生成任务。模型以离散的 sketch token 作为 “链式思维” 式中间提示,结合 VAE latent(变分自编码器潜在空间)输出最终结果 —— 这一设计既完整保留了自回归模型在结构连贯性、音素对齐上的优势,又充分发挥了扩散模型在连续特征生成中对音质的提升作用,最终实现 “结构稳、细节满、表现力强” 的歌曲生成效果。 团队创新提出交替生成范式(interleaved generation)。该...

Sand.AI 发布音画同步 AI 视频生成模型 GAGA-1

清华博士曹越创立的 Sand.AI 发布了全新音画同步 AI 视频模型 GAGA-1,目前已经正式上线,无需邀请码、无需排队,目前全员免费开放使用,官网地址为https://gaga.art。 据介绍,GAGA-1 的研发历时 6 个月,远超最初 “2 个月完成” 的预期,其核心亮点集中在人物表演维度,尤其带台词的表演已达影视级水平(短剧、影游级完全适配,部分满足电视剧级需求,暂未达电影级神韵)。 经实测,GAGA-1 能精准还原人物情绪(如失望、气愤、歇斯底里等),支持双人场景表演,甚至可识别外国人形象并生成蹩脚普通话,还具备唱歌功能。 关于后续规划,曹越透露,自定义音频、固定音色 ID 功能已接近完成,仅因工程进度未赶上此次发布;价格方面,虽未确定免费期限,但明确后续定价将远低于 Sora2 与 Veo3,现阶段可满足短剧创作、影游 NPC 对话生成、小说角色可视化等需求,为低成本视频创作提供新可能。 推荐阅读:清华博士带队,发布全球首个自回归视频生成大模型「Magi-1」

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat

Apache Tomcat

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。