腾讯开源具备原生 3D 重建能力的超长程世界模型:HunyuanWorld-Voyager
腾讯近日正式发布了HunyuanWorld-Voyager,这是一种创新的视频扩散框架,旨在通过单张输入图像生成具备世界一致性的3D 点云,支持用户按自定义的相机路径进行沉浸式探索。 官方表示,这全球首个具备原生3D 重建功能的超远距离世界模型,重新定义 AI 驱动的 VR、游戏和仿真空间智能。此模型不仅能够生成精确对齐的深度信息和 RGB 视频,还能够在不进行后处理的情况下,直接用于高质量的三维重建。 直接3D 输出:无需 COLMAP 等工具即可将点云视频导出为3D 格式,实现即时3D 应用。 创新的3D 内存:引入可扩展的世界缓存机制,确保任何摄像机轨迹的几何一致性。 顶级性能:在斯坦福 WorldScore 测试中排名第一,在视频生成和3D 重建基准测试中表现出色 HunyuanWorld-Voyager的架构包含两个关键组件。首先是 “世界一致的视频扩散”,该组件提出了一种统一的架构,可以基于已有的世界观测,同时生成准确对齐的 RGB 视频和深度视频序列,从而确保全局场景的一致性。其次是 “长距离世界探索”,它采用了一种高效的世界缓存机制,结合点云剔除和自回归推理能力,支持迭...

