阿里开源新一代 AI 视频模型通义万相 Wan2.1
阿里巴巴宣布全面开源旗下视频生成模型万相2.1模型,采用Apache2.0协议。此次开源的两个参数版本模型:
-
14B版本万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。
-
1.3B版本万相模型不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需8.2GB显存就可以生成480P视频,适用于二次模型开发和学术研究。
根据介绍,本次开源的 Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,无论是创作者、开发者还是企业用户,都可以根据自己的需求选择合适的模型和功能,轻松实现高质量的视频生成。
同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。在权威评测集VBench中,万相以总分86.22%的成绩登上榜首位置,大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。
基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的3D因果VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标。

