小米开源可控视频音效生成模型 ControlFoley-低调大师

小米开源可控视频音效生成模型 ControlFoley

2026-05-29 59

小米大模型应用团队发布 ControlFoley 开源模型，面向视频同步音效生成中的“可控性”难题，统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。

根据介绍，ControlFoley 在多个视频音效生成任务上达到开源 SOTA 表现，在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。

ControlFoley 的核心目标，是构建一个统一的可控视频音效生成框架，让模型同时具备三类能力：

TV2A：文本引导视频配音。根据视频和文本提示生成同步音效，文本用于补充和细化画面中的声音语义。
TC-V2A：文本控制视频配音。当文本和视频语义发生冲突时，模型仍能遵循文本意图生成目标声音，同时保持和视频动作的时间同步。
AC-V2A：参考音频控制视频配音。根据视频和参考音频生成同步音效，让输出声音在音色和风格上贴近参考音频，同时不破坏视频节奏。

这意味着，ControlFoley 不只是一个“视频生音频”模型，而是一个面向创作控制的多模态音频生成模型。

团队新提出并自训练了时空音视频编码器 CAV-MAE-ST，用来增强模型对音视频事件、动作节奏和时间同步关系的理解。

CLIP 更擅长理解视觉与文本之间的通用语义关系；CAV-MAE-ST 则面向视频配音任务重新设计和训练，更关注“动作什么时候发生、声音应该什么时候出现”这类音视频时空对应关系。它通过视频帧与音频特征的联合建模，帮助模型捕捉动作节奏、音频事件和时间同步线索。

二者结合后，ControlFoley 既能保留强音画同步能力，又能在文本与视觉发生冲突时更好地响应文本控制。这让模型在“画面是一回事，用户想要另一种声音”的场景下，不再只是被画面牵着走。

同时，ControlFoley 采用时间-音色解耦策略，抑制参考音频中冗余的时间信息，保留更关键的全局音色特征。这样一来，参考音频主要负责控制“声音听起来像什么”，视频则继续负责控制“声音什么时候发生”。

ControlFoley 还采用随机模态 dropout 和统一多模态表示对齐训练，让模型在不同条件组合下都能保持稳定。同时，模型通过统一 REPA 对齐目标，将生成音频的内部表示与聚合后的多模态条件对齐，提升语义一致性和控制鲁棒性。换句话说，ControlFoley 不是为某一个单点任务“特化”出来的模型，而是一个统一覆盖 TV2A、TC-V2A、AC-V2A 的多任务框架。

微信关注我们

原文链接：https://www.oschina.net/news/448080

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

🔥 一行代码干翻 Java 反射？EggG 流式反射调用让反射优雅到不可思议

你还在写 10 行反射代码只为调一个方法吗？该换个姿势了。痛点：Java 反射的"丑陋真相" 每个 Java 开发者都经历过这种痛苦——当你需要用反射调用一个方法时，画风是这样的： Class<?> clazz = Person.class; Constructor<?> ctor = clazz.getConstructor(String.class, int.class); Object person = ctor.newInstance("Tom", 25); Method method = cla...

2026-05-29

83

成立三年、一直靠自有资金运转的 DeepSeek，终于在 2026 年打开了融资大门。媒体日前披露，国家集成电路产业投资基金（大基金）将领投 DeepSeek 首轮对外融资，投前估值达到 450 亿美元，本轮融资规模约 700 亿元人民币。这个数字放在当前的中国 AI 行业里，称得上是一个分水岭事件。DeepSeek 自 2023 年成立以来，以极低的训练成本推出了 DeepSeek-V2 等多款引发国际关注的模型，其 MLA 架构和 DeepSeekMoE 等技术创新在学术和工业界均引起广泛讨论。但在此之前，DeepSeek 始终未对外融资，团队资金全部来自创始人及其早期投资人的自有资金。...

2026-05-29

77

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。