全球首个自回归视频生成大模型「Magi-1」重磅开源
Magi-1 是首个实现顶级画质输出的自回归视频生成模型,模型权重、代码 100% 开源。其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事。二是能将控制精确到每一“秒”,10s 内自定义视频时长。 Magi-1 整体架构基于 Diffusion Transformer,采用 Flow-Matching 作为训练目标。其最大的特点是不把视频当成一个整体去生成,而是通过自回归去噪方式预测固定长度的视频片段(chunk),每个片段固定为24帧。 在注意力机制上,也是提出了多项创新,包括: Block-Causal Attention Parallel Attention Block QK-Norm和GQA Flex-Flash-Attention 计算负载均衡 零冗余通信原语 自适应多阶段重叠 推理基础设施方面,主要针对实时流式视频生成和在 RTX 4090 GPU 上的经济高效部署两种场景进行设计,以满足不同应用需求。 目前官网支持免费试玩 Magi-1:https://sand.ai/magi
