字节跳动发布视频生成基础大模型 Seaweed-7B
字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看: Seaweed-7B Elo 评分为 1047,胜率 58%,而 Wan 2.1 仅有 53%,OpenAI 的 Sora 更是仅有 36% 可实时生成分辨率为 1280×720、帧率为 24fps 的视频,比同类模型快 62 倍 40GB 显存即可支持 1280×720 分辨率生成 据官方介绍,Seaweed-7B 结合了变分自编码器(VAE)和潜在扩散变换器(DiT)。其中,VAE 负责高效的训练和推理,而 DiT 则通过扩散模型生成图像和视频,显著提高了生成的质量与效率。 另外,团队为了提升 Seaweed-7B 的训练效率,采用了多阶段训练策略和 GPU 资源的优化调配。预训练阶段通过低分辨率图像开始,逐步引入高分辨率视频训练,提升了模型的泛化能力。此外,在后训练阶段,通过监督微调和基于人类反馈...
