阿里通义开源首个影视级配音多模态大模型 Fun-CineForge-低调大师

阿里通义开源首个影视级配音多模态大模型 Fun-CineForge

2026-03-16 56

阿里通义实验室发布并开源了首个支持影视级多场景配音的多模态大模型 Fun-CineForge。并配套开放了高质量数据集的构建方法。公告称，“通过“数据 + 模型”的一体化设计，Fun-CineForge 正尝试解决影视级 AI 配音长期面临的关键问题。”

本次开源内容核心包含两部分：

模型侧：面向复杂影视场景的多模态配音大模型；
数据侧：大规模多模态配音数据集构建流程（CineDub）。

根据介绍，在数据基础之上，Fun-CineForge 基于 CosyVoice3 强大的语音合成底层能力，构建了一个面向复杂影视场景的配音大模型，完成视频 + 文本 → 语音的任务。输入包括：

无声视频片段
配音文本
角色属性和情感线索
时间信息
参考语音

模型即可以参考语音的音色来合成与时间和视频信息高度对齐的语音。

Fun-CineForge 首先构建了一套自动化的数据集生产流程，可以将原始影视素材转化为结构化多模态数据。

该流程包括人声分离、文本转录、长视频分段、音视频联合说话人分离等，其中，基于通用大模型思维链的双向矫正机制，大幅降低了转录文本和说话人分离结果的错误率。

中文字错率从 4.53% 降至 0.94%；
英文词错率从 9.35% 降至 2.12%；
说话人分离错误率从 8.38% 降至 1.20%。

数据覆盖独白、旁白、对话、多说话人等多种典型场景。每条数据都包含转录台词、帧级人脸唇部数据、角色属性情感线索、毫秒级时间戳及干净人声轨道。这些相互补充、相辅相成的多模态信息为训练大模型的专业配音能力提供了坚实基础。

Fun-CineForge 最重要的技术创新，是在配音模型中首次引入“时间模态”。传统 TTS 模型通常只关注文本内容、声音特征或视觉信息，但影视配音中还有一个关键维度：时间。

例如：

什么时候开始说话
什么时候结束说话
哪个角色在该时间区域内说话

这些信息能够直接帮助模型深入理解“在什么时间段内，哪个角色在说什么。”，在视觉模态“看不到”说话人的时候，时间模态作为一种强监督目标，使语音出现在该出现的时间区域内。这一点使模型具备了在复杂场景下的配音能力。

Fun-CineForge 模型同时利用四类信息，它们相互补充、相辅相成。

视觉模态：学习唇部运动，理解面部表情；
文本模态：提供台词内容，描述角色属性和情感语气；
音频模态：作为模型预测目标；
时间模态：控制语音出现的时间，在对话场景指示说话人身份。

实验结果显示，在多个关键指标上，Fun-CineForge 配音模型都优于现有开源配音模型，包括：语音自然度、字错率、情感表达能力、音色相似度、唇形同步、时间对齐能力、。指令遵循能力

其中，Fun-CineForge 配音模型以独白和旁白两种单人配音场景效果最佳，首次支持双人对话与多人对话的场景，并能够实现准确的时间对齐、音画同步与音色一致。

项目团队在自建的CineDub 数据集上对 Fun-CineForge 进行了全面评估，覆盖独白、旁白、对话、多人场景等多种典型影视配音场景。结果显示，单人场景效果最优，独白和旁白的中文字错率仅 1.49% 和 1.90%，音画同步精准。

在独白场景下，将 Fun-CineForge 与 DeepDubber-V1 和 InstructDubber 进行了对比。结果显示，Fun-CineForge 在词错率、唇部同步、时间对齐、音色相似度等各项指标上均明显优于基线模型。

微信关注我们

原文链接：https://www.oschina.net/news/411015

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

广东：鼓励有条件的地市结合实际对人工智能 OPC 模型开发投入给予补贴

广东省发展改革委近日印发《广东省支持人工智能OPC创新发展行动方案（2026—2028年）》。具体内容如下：广东省支持人工智能OPC创新发展行动方案（2026—2028年）为全面实施“人工智能+”行动，抢占产业应用制高点，加速推进人工智能全域全时全行业高水平应用，培育发展人工智能新业态、新模式，构建数字原生、敏捷迭代、全链赋能的人工智能OPC（One Person Company，一人公司）创新创业创造良好生态，特制定本方案。一、总体目标大力支持人工智能OPC企业发展壮大，推动投资于物和投资于人互促共进，从产业培育、生态服务、人才支撑、要素保障等各方面，营造适应人工智能OPC创新发展的生态体系。2026年，先行培育10个具有引领效应的人工智能OPC生态社区，形成一批年营业收入超千万的优质企业。到2028年，建成百个人工智能OPC生态社区，培育千家标杆人工智能OPC企业，集聚万名人工智能OPC创新创业人才，将广东打造成为全国领先的人工智能OPC发展高地。二、重点任务（一）加强基础能力保障。 1.强化智能算力供给。打造绿色协同算力“一张网”，建设粤港澳大湾区国家枢纽节点，助力...

2026-03-16

47

导语：万众期待的全国农业高校人工智能学院院长研讨会将于3月20日在三亚崖州湾召开。今天，我们隆重揭晓研讨会的重磅嘉宾阵容和核心议题，一场农业 AI for Science 的思想盛宴即将开启，开源中国邀您共同见证！顶级嘉宾阵容，打造农业 AI 高端智库本次研讨会以 “小而精、高规格” 为特色，组建了权威的学术和组织阵容，为农业 AI 发展提供顶级智力支撑：大会主席：赵春江（中国工程院院士，国家农业信息化工程技术研究中心主任）、陈凡（崖州湾国家实验室副主任，首席科学家），两位行业领军人物坐镇，引领学术前沿；学术委员会：由全国农业院校校长 / 副校长等行业权威组成，汇聚农业高等教育和科研领域的核心力量；核心参会嘉宾：全国农业高校人工智能学院院长、计算机学院院长 / 副院长，以及实验室 / 科研院所代表、国产算力厂商、农业产业合作方等，嘉宾均为农业 AI 学科建设、科研攻关、算力选型、人才培养的关键决策者。此次嘉宾阵容覆盖全国 30 余所顶尖农业高校，包括中国农业大学、华中农业大学、南京农业大学、华南农林大学、新疆农业大学，以及中国农业科学院南繁研究院等，真正实现了全国农业高校...

2026-03-16

60

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。