您现在的位置是:首页 > 文章详情

腾讯ARC实验室发布 AudioStory 音频生成技术

日期:2025-09-01点击:12

腾讯ARC实验室发布了AudioStory音频生成技术,实现复杂叙事场景的好莱坞级音效一键生成,可处理视频配音、音频续写和长篇叙事音频。  

AudioStory将大语言模型与文本‑音频系统结合,能够把复杂的叙事请求拆分为有顺序的子任务,保证场景转换和情感基调的一致性。  它采用“解耦桥接机制”来分别处理事件内部语义对齐与跨事件一致性,并通过端到端训练提升理解和生成的协同。

用户通过自然语言描述(如“悬疑追逐战:脚步溅水,雷声轰鸣”),系统即可自动分解事件序列,结合大语言模型与文生音频技术,生成具有时序逻辑与情绪层次的高质量音频。

AudioStory核心技术突破在于采用语义令牌与残差令牌双通道机制,精准协调宏观叙事与微观音效细节,并通过三阶段渐进训练解决长音频连贯性问题。

据了解,AudioStory技术已应用于视频自动配音、音频智能续写等场景,在万级测试集AudioStory-10K中展现领先的指令遵循力与一致性,为有声书、游戏音效等领域提供全新创作工具。

开源地址:https://github.com/TencentARC/AudioStory

原文链接:https://www.oschina.net/news/369654
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章