字节跳动开源 4D 视频生成框架 EX-4D
字节跳动旗下PICO-MR团队正式开源了 EX-4D,一款突破性的4D视频生成框架;能够从单一视角(单目)视频生成高质量、多视角的4D视频序列(3D空间+时间维度)。 传统视频生成技术在多视角生成方面面临两大挑战:一是需要昂贵的多视角相机和数据集进行训练;二是难以处理遮挡区域,导致生成的视频在极端视角下出现物体穿帮或细节失真。EX-4D通过创新的深度密闭网格(DW-Mesh)表示和轻量级适配架构,成功解决了这些问题。 DW-Mesh是EX-4D的核心技术,它通过构建全密闭网格结构,记录场景中的可见和隐形面片,无需多视角监督即可统一处理复杂场景拓扑。结合预训练深度预测模型,EX-4D将单帧像素投影到3D空间,形成网格顶点,并根据几何关系精准标记遮挡区域。这种方法确保了生成视频在极端视角(如±90°)下仍能保持物理一致性和细节完整性。 此外,EX-4D引入了两种模拟mask生成策略——渲染 mask 和跟踪mask,通过模拟视角移动和帧间一致性,破解了多视角训练数据的稀缺难题。这些策略使EX-4D仅凭单目视频即可“脑补”全视角数据,极大降低了数据采集成本。 性能测试结果表明,EX-4D在 ...


