腾讯ARC实验室发布 AudioStory 音频生成技术-低调大师

腾讯ARC实验室发布 AudioStory 音频生成技术

2025-09-01 193

腾讯ARC实验室发布了AudioStory音频生成技术，实现复杂叙事场景的好莱坞级音效一键生成，可处理视频配音、音频续写和长篇叙事音频。

AudioStory将大语言模型与文本‑音频系统结合，能够把复杂的叙事请求拆分为有顺序的子任务，保证场景转换和情感基调的一致性。它采用“解耦桥接机制”来分别处理事件内部语义对齐与跨事件一致性，并通过端到端训练提升理解和生成的协同。

用户通过自然语言描述（如“悬疑追逐战：脚步溅水，雷声轰鸣”），系统即可自动分解事件序列，结合大语言模型与文生音频技术，生成具有时序逻辑与情绪层次的高质量音频。

AudioStory核心技术突破在于采用语义令牌与残差令牌双通道机制，精准协调宏观叙事与微观音效细节，并通过三阶段渐进训练解决长音频连贯性问题。

据了解，AudioStory技术已应用于视频自动配音、音频智能续写等场景，在万级测试集AudioStory-10K中展现领先的指令遵循力与一致性，为有声书、游戏音效等领域提供全新创作工具。

开源地址：https://github.com/TencentARC/AudioStory

微信关注我们

原文链接：https://www.oschina.net/news/369654

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

亚马逊 AWS 旗下 AI 编程工具 Kiro 继续免费至 9 月 15 日

AWS 推出的 AI 编程 IDE 工具 Kiro 宣布，鉴于近期定价调整，公司将原定于 9 月 1 日结束的免费使用政策延长至 9 月 15 日。在此期间，所有支付了订阅费用的用户都将获得全额退款，让用户可以自由使用至 9 月 15 日。与此同时，Kiro 用户的计划使用额度已于 9 月 1 日恢复为正常订阅限额，用户还可免费启用 overages 超额请求功能，额外获赠 1,000 次 vibe 请求与 200 次 spec 请求，且相关费用将被退还。官方强调，所有退款已陆续处理，使用额度也已提前重置，以保障用户可畅快使用工具。重要 FAQ 概览问题澄清说明用户何时被收费？何时退款？系统一旦在 9 月 1 日扣款，将于 9 月 15 日前全额退还。超额使用费用是否退款？已于 8 月产生的超额费用将被退还；9 月期间启用的 overages，如产生费用，同样会在月底退回。现在订阅是否算免费？若在 9 月 14 日之前购买订阅，会立即享受免费使用至 9 月 14 日，并获得 9 月费用退款。参加 hackathon 的用户影响如何？参与 9 月 15 日截止的...

2025-09-01

298

蚂蚁集团联合研究团队近日开源发布了针对医疗领域的知识驱动轨迹合成框架 MedResearcher-R1。旨在解决领域特定 AI 推理的挑战，通过智能化的数据生成和合成，为医疗研究提供支持。 MedResearcher-R1包含三个集成的核心模块，分别是知识图谱构建、轨迹生成管道和评估管道。知识图谱构建模块是该框架的核心创新。该模块能够将领域知识转化为高质量的问答对，借助自动推理路径生成，构建出完整的知识图谱。此外，系统还提供了交互式网络可视化，用户可以通过 D3.js 力导向图来直观展示知识图谱结构。先进的采样算法和统一的问答生成方法，使得复杂的子图提取与多种形式的问题合成得以实现。接下来是轨迹生成管道。该模块实现了多轮推理与工具集成的自动化处理，可以将问答对转换为多轮推理轨迹，并进行质量过滤。通过高效的质量过滤机制，系统能够检测到错误并进行自动修正，确保生成内容的准确性。评估管道为模型的推理性能提供了全面的评估与验证框架。它不仅支持单问题模式的详细过程可视化，还可以进行批量数据集评估，提高评估效率。通过这些模块，MedResearcher-R1提供了一整套从知识提取到模型训练数...

2025-09-01

256

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。