昆仑万维开源 SkyReels-V2,支持生成 30、40 秒视频
昆仑万维SkyReels团队正式发布并开源SkyReels-V2,据称为全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。
根据介绍,SkyReels-V2现已支持生成30秒、40秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。
- 全面的影视级视频理解模型:SkyCaptioner-V1
为了提高提示词遵循能力,团队设计了一种结构化的视频表示方法,将多模态LLM的一般描述与子专家模型的详细镜头语言相结合。这种方法能够识别视频中的主体类型、外观、表情、动作和位置等信息,同时通过人工标注和模型训练,进一步提升了对镜头语言的理解能力。
同时,团队训练了一个统一的视频理解模型 SkyCaptioner-V1,它能够高效地理解视频数据,生成符合原始结构信息的多样化描述。通过这种方式,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,从而显著提高了生成视频的提示词遵循能力。此外,这个模型现在已经开源,可以直接使用。
- 针对运动的偏好优化
现有的视频生成模型在运动质量上表现不佳,主要原因是优化目标未能充分考虑时序一致性和运动合理性。项目团队通过强化学习(RL)训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题。为了降低数据标注成本,设计了一个半自动数据收集管道,能够高效地生成偏好对比数据对。
通过这种方式,SkyReels-V2在运动动态方面表现优异,能够生成流畅且逼真的视频内容,满足电影制作中对高质量运动动态的需求。
- 高效的扩散强迫框架
为了实现长视频生成能力,SkyReels团队提出了一种扩散强迫(diffusion forcing)后训练方法。与从零开始训练扩散强迫模型不同,通过微调预训练的扩散模型,将其转化为扩散强迫模型。这种方法不仅减少了训练成本,还显著提高了生成效率。
采用非递减噪声时间表,将连续帧的去噪时间表搜索空间从 O(1e48) 降低到 O(1e32),从而实现了长视频的高效生成。这一创新使得SkyReels-V2能够生成几乎无限时长的高质量视频内容。
- 渐进式分辨率预训练与多阶段后训练优化
为了全面评估SkyReels-V2的性能,SkyReels团队构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。
SkyReels-Bench包含1020个文本提示词,系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。该基准旨在评估文本到视频(T2V)和图像到视频(I2V)生成模型,提供跨不同生成范式的全面评估。
在SkyReels-Bench评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。
在VBench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括HunyuanVideo-13B和Wan2.1-14B。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
马建仓 AI 助手再进化:懂场景,也懂老板,但更懂你
马建仓 AI 助手上线 Gitee 企业版后,Gitee 团队针对企业使用场景对其进行了多项针对性的优化和更新,并在近期正式和开发者们见面。 本次更新围绕三个核心方向展开: 更懂场景的马建仓 任务入口全面聚合,推荐更贴合场景。 本次更新将马建仓 AI 助手入口统一整合,并支持在查看 PR、新建周报、缺陷详情、需求详情、代码文件等不同页面和使用场景下,智能推荐对应的 AI 能力。 下面是 PR 场景下马建仓 AI 助手的表现,开发者可以快速选择推荐的场景使用建议,也可以更有针对性地提出自己的详细需求。 ▲一键采用马建仓的智能场景建议 ▲也可以在当前场景选择其他的需求 除了 PR 场景外,无论是写需求、看代码,还是写周报,马建仓 AI 助手都能根据当前场景主动给出最合适的建议,进一步降低使用门槛、提升使用效率。 更懂老板的马建仓 多模态输入,需求描述不再受限。 面对更复杂的业务表达需求(比如来自老板的 60 秒语音转文字),马建仓 AI 助手现已支持文字结合最多五张图片的多模态输入,让马建仓帮你更好地将口头上的「需求」转化为更符合业务逻辑的「任务」。 ▲在多模态输入的加持下,马建仓 AI ...
- 下一篇
生成式 3D AI 公司 VAST 最新开源:通用自动骨骼绑定框架 UniRig
VAST 是一家 AIGC 3D 大模型创业公司,近日宣布携手清华大学正式开源通用自动骨骼绑定框架 UniRig,并联合香港大学共同推出三维模型智能拆解工具 HoloPart。 UniRig 是全新的统一自动化骨骼绑定框架,它提出了一个强大的统一模型,能够为前所未有、种类繁多的 3D 模型生成高质量的绑定数据,涵盖人类、动物、复杂的幻想角色乃至无机结构。 UniRig 的核心方法是自回归预测与创新的 Tokenization,团队介绍称UniRig 预测的不是像素或文字,而是 3D 骨骼的结构——逐个关节地进行预测。这种序列化的预测过程是确保生成拓扑结构有效骨骼的关键。 而实现这一目标的关键创新是骨骼树 Tokenization(Skeleton Tree Tokenization)方法:将具有复杂关节相互依赖关系的层级化骨骼结构,表示为适合 Transformer 处理的线性序列。 VAST 团队的 Tokenization 方案高效地编码了: 关节坐标: 骨骼关节的离散化空间位置。 层级结构: 明确的父子关系,确保生成有效的树状结构。 骨骼语义: 使用特殊 Token 标识骨骼类型...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装Docker,最新的服务器搭配容器使用