中国科大与字节发布 MoGA 长视频生成模型
中国科学技术大学与字节跳动即将联合发布一款具有里程碑意义的端到端长视频生成模型。该模型能够直接生成分钟级长度、480p 分辨率、24帧/秒(fps)的高质量视频,并支持多镜头场景切换,标志着国产视频生成技术在全球生成式 AI 竞赛中实现关键突破。 这项成果的核心创新在于其底层算法——MoGA(Modular Global Attention),这是一种全新的注意力机制,专为解决长视频生成中的上下文扩展与算力开销问题而设计。凭借 MoGA 的结构优化,模型可处理长达 580K token 的上下文信息,大幅降低计算成本,使长时间、多场景的视频生成成为可能。 研究团队表示,传统视频生成模型往往受限于显存和计算量,只能生成几秒钟的动画 GIF 或短片。而 MoGA 的引入,让模型能够“一次性”生成包含多个镜头切换、视觉叙事连贯的 “迷你短片”,极大拓展了生成式视频模型的应用边界。 此外,MoGA 具有高度的 模块化与兼容性,可直接与现有的高效加速库(如 FlashAttention、xFormers、DeepSpeed 等)集成,实现更快的训练与推理效率。这意味着该技术不仅具备科研突破意义,...
