通义实验室发布视频生成环境音框架 PrismAudio
阿里通义实验室宣布推出 PrismAudio,一个将强化学习与思维链紧密结合的视频生成环境音框架。其研究重点在于环境音/音效合成,比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音,而非人物配音。 PrismAudio 只有 5.18 亿参数,生成 9 秒音频只要 0.63 秒。目前这项研究已被顶级会议 ICLR 2026 收录,代码即将开源。根据介绍,PrismAudio 的突破在于“先思考,再发声”。并且有四位“老师”同时给它打分,其中: 语义老师盯着画面,教模型认准“这是马蹄声,不是鸟叫声”。 时序老师拿着秒表,监督声音和动作必须严丝合缝。 美学老师挑剔音质,要求声音自然、有层次、不刺耳。 空间老师听声辨位,检查声音是不是从该来的方向来。 模型在生成声音前,会先分析:这段视频里有什么?应该发出什么声音?声音什么时候开始?什么时候结束?顺序怎么排?声音应该是什么质感?清脆还是低沉?远近怎么处理?声源在左边还是右边?有没有移动? 四份笔记写完,拼接成一份完整的“行动指南”,再交给音频生成模型去执行。“这就是我们说的分解式思维链,不是让模型一拍脑袋出声音,而是让它把思考过程拆开、...

