全球首个自回归视频生成大模型「Magi-1」重磅开源
Magi-1 是首个实现顶级画质输出的自回归视频生成模型,模型权重、代码 100% 开源。其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事。二是能将控制精确到每一“秒”,10s 内自定义视频时长。
Magi-1 整体架构基于 Diffusion Transformer,采用 Flow-Matching 作为训练目标。其最大的特点是不把视频当成一个整体去生成,而是通过自回归去噪方式预测固定长度的视频片段(chunk),每个片段固定为24帧。
在注意力机制上,也是提出了多项创新,包括:
- Block-Causal Attention
- Parallel Attention Block
- QK-Norm和GQA
- Flex-Flash-Attention
- 计算负载均衡
- 零冗余通信原语
- 自适应多阶段重叠
推理基础设施方面,主要针对实时流式视频生成和在 RTX 4090 GPU 上的经济高效部署两种场景进行设计,以满足不同应用需求。
目前官网支持免费试玩 Magi-1:https://sand.ai/magi