腾讯ARC实验室发布 AudioStory 音频生成技术
腾讯ARC实验室发布了AudioStory音频生成技术,实现复杂叙事场景的好莱坞级音效一键生成,可处理视频配音、音频续写和长篇叙事音频。
AudioStory将大语言模型与文本‑音频系统结合,能够把复杂的叙事请求拆分为有顺序的子任务,保证场景转换和情感基调的一致性。 它采用“解耦桥接机制”来分别处理事件内部语义对齐与跨事件一致性,并通过端到端训练提升理解和生成的协同。
用户通过自然语言描述(如“悬疑追逐战:脚步溅水,雷声轰鸣”),系统即可自动分解事件序列,结合大语言模型与文生音频技术,生成具有时序逻辑与情绪层次的高质量音频。
AudioStory核心技术突破在于采用语义令牌与残差令牌双通道机制,精准协调宏观叙事与微观音效细节,并通过三阶段渐进训练解决长音频连贯性问题。
据了解,AudioStory技术已应用于视频自动配音、音频智能续写等场景,在万级测试集AudioStory-10K中展现领先的指令遵循力与一致性,为有声书、游戏音效等领域提供全新创作工具。
开源地址:https://github.com/TencentARC/AudioStory

