抖音内容技术团队开源 ContentV:有限算力下高效训练视频生成模型的新路径
- 项目主页:https://contentv.github.io
- 技术报告:https://arxiv.org/abs/2506.05343
- 代码仓库:https://github.com/bytedance/ContentV
- 模型权重:https://huggingface.co/ByteDance/ContentV-8B
核心亮点
极简设计
CogVideoX、HunyuanVideo 和 Wan2.1 等一系列优秀的开源工作表明,视频生成的关键并不在于架构上的特殊设计,而在于如何高效利用有限的数据资源,并有效对齐人类偏好。
为验证 ContentV 方案的通用性,本次开源的版本在扩散模型部分采用了经典的文生图模型 Stable Diffusion 3.5 Large。为了适配视频模态,模型在结构上仅做了以下两项必要调整:
- 将原始图像 VAE 替换为 Wan2.1 中使用的3D-VAE;
- 将 2D 位置编码升级为 3D 版本。在具体编码方式上,团队对比了传统的绝对位置编码与主流的旋转位置编码。评估结果显示,两者在客观指标和主观感受上差异较小,因此保留了计算更高效的绝对位置编码方案。
ContentV模型结构
多阶段渐进训练策略
上述的最小化结构改动,在解锁了视频生成能力的同时,也最大限度地保留了原模型的图像生成能力。实验证明,在新的VAE和位置编码的适配阶段,沿用Flow Matching的训练方式,仅需1000步左右的微调,就能基本还原模型的图片生成能力,大幅节省图片预训练阶段的训练成本。
VAE适配过程
在视频生成的预训练阶段,为加速收敛实现高效训练,研究团队设计了一套从“低清短片”到“高清长片”的多阶段渐进式训练流程,逐步引导模型学习时间维度与空间维度上的动态表征,从而提升视频的连续性、动态表现力和画面细节。
此外,实验证明,在推理阶段引入非线性采样步长机制(Flow Shift)能够显著提升视频的整体生成质量。通过多组对比实验,团队最终确定了最优的采样策略,进一步优化了生成效果。
轻量级RLHF强化训练
RLHF显著提升画面质感
在后训练阶段,除了使用高质量数据集进行微调外,通过 RLHF 或 DPO 等对齐人类偏好的监督训练,也能显著提升视频生成质量。然而,这类方法通常依赖大量人工标注,用于训练奖励模型或直接监督扩散模型。同时,相较于图像,视频的序列长度显著增加了 RLHF 和 DPO 的训练资源需求。
为此,ContentV 研究团队提出了一种轻量级的 RLHF 训练方案,旨在不依赖人工标注的前提下,低成本提升视频质量:
-
利用开源的图像奖励模型对生成视频的单帧进行监督。相较于视频场景,目前图像奖励模型的训练数据更易获取,且在实际效果中表现更佳。实验证明,由于 MM DiT 采用全局注意力机制,仅优化单帧即可带动整体视频质量的提升;
-
将监督范围限制在生成视频的前 1 秒,相较于对完整视频进行监督,可大幅减少训练资源的消耗,同时获得相近的质量提升效果。
采用上述策略后,在无需人工标注的情况下,仅使用少量训练资源,便可显著提升画面质量。RLHF 微调后,模型在视觉质量(VQ)指标上的表现大幅提升,评估胜率高达 89.38%。
效果对比
在 VBench 这一主流视频生成评测基准上,ContentV(8B)取得了 85.14 的综合得分,表现优于多个现有的商业闭源模型,包括 Sora、Kling 1.6 和 Gen-3 等。
VBench榜单 (按照Overall分数降序排列)
为更贴近真实用户偏好,研究团队围绕感知质量、指令跟随、物理一致性和视觉效果四个维度开展了人类偏好评估。结果显示,ContentV 在整体表现上与 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流开源模型相比具有一定优势。
人类偏好评估指标

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Bilibili 开源动漫视频生成模型 AniSora V3 版
Bilibili(B站)宣布其开源动漫视频生成模型AniSora迎来重大更新,正式发布AniSora V3。作为Index-AniSora项目的一部分,V3版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性,为动漫、漫画及VTuber内容创作者提供了更强大的工具。 AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型,结合强化学习与人类反馈(RLHF)框架,显著提升了生成视频的视觉质量和动作一致性。其支持一键生成多种风格的动漫视频镜头,包括番剧片段、国创动画、漫画视频改编、VTuber内容)等。 核心升级包括: 时空掩码模块(Spatiotemporal Mask Module)优化:V3版本增强了时空控制能力,支持更复杂的动画任务,如精细的角色表情控制、动态镜头移动和局部图像引导生成。例如,提示“五位女孩在镜头放大时起舞,左手上举至头顶再下放至膝盖”能生成流畅的舞蹈动画,镜头与角色动作同步自然。 数据集扩展:V3继续依托超过1000万高质量动漫视频片段(从100万原始视频中提取)进行训练,新增数据清洗流水线,确保生成内容的风格...
- 下一篇
马斯克 xAI 获 100 亿美元融资引关注,亚马逊/微美全息布局 AI 大模型应用加速落地
7月3日消息,摩根士丹利在海外社交媒体X上发文,称埃隆·马斯克旗下xAI已完成50亿美元(约合人民币358亿)债务融资及另外50亿美元(约合人民币358亿)战略股权融资。 获新融资,xAI估值破万亿 除债务融资外,xAI还就约200亿美元股权融资进行谈判,这将使公司估值超过1200亿美元。该交易获得超额认购,参与方包括多家全球知名债务投资者,所募资金将用于开发AI解决方案,包括建设数据中心及xAI旗舰平台Grok更新升级。 据悉,xAI是马斯克于2023年7月创办,公司员工大多来自OpenAI、谷歌DeepMind、微软、特斯拉等巨头。硅谷竞争进入白热化阶段,为了让它能和ChatGPT直接竞争,马斯克将最近两年的大部分精力用xA,他们已经正在研发Grok 4人工智能模型。 亚马逊发布新AI大模型 与此同时,全球电商、云计算巨头亚马逊(AMZN.US)在官网宣布,在机器人技术与AI领域的两个重要里程碑:推出新的AI基础大模型Deep Fleet,部署的机器人数量突破100万大关。 近日,百度(BIDU.US)正式开源文心大模型4.5系列模型,涵盖47B、3B激活参数的混...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装