腾讯混元世界模型 1.1 开源,单卡部署,秒级生成
腾讯混元世界模型 1.1 版本(WorldMirror)正式发布并开源,新增支持多视图及视频输入,单卡即可部署,秒级创造3D世界。“它让3D重建从专业工具变为人人可用的技术——任何人都能在秒级内从视频或图片创造出专业级3D场景。”
公告称,作为一个统一(any-to-any)的前馈式(feedforward)3D重建大模型,混元世界模型1.1解决了1.0版本仅支持文本或单图输入的局限,首次同时支持多模态先验注入和多任务统一输出的端到端3D重建。
此外,混元世界模型1.1还支持额外的相机、深度等多模态先验输入,并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种3D几何预测,性能大幅超过现有方法。
三大特性
- 灵活处理不同输入(any input)
传统3D重建方法只能处理原始图像,无法利用现实应用中常见的额外信息。混元世界模型1.1突破性地提出多模态先验引导机制,支持灵活注入:
- 相机位姿:提供全局视角约束,确保多视图一致性
- 相机内参:解决尺度歧义,精确投影几何关系
- 深度图:为纹理缺失区域(如反光面、无纹理区)提供像素级约束
系统采用分层编码策略:紧凑先验压缩为全局语义令牌,稠密先验则以空间对齐方式融合进视觉特征。通过动态先验注入机制,模型能灵活适应任意先验组合——有就用,没有也能工作。
- 通用3D视觉预测(any output)
以往方法往往为单一任务定制,要么做点云,要么做深度,要么做相机位姿。混元世界模型1.1首次实现了统一,并均取得了SOTA的表现:
- 点云:密集点云回归
- 多视角深度图:逐像素深度估计
- 相机参数:完整位姿和内参预测
- 表面法线:支持高质量网格重建
- 3D高斯点:直接用于实时新视角渲染
通过端到端多任务协同训练,各任务相互强化。例如,预测的法线图在Poisson表面重建中能产生更清晰的网格细节,而深度和相机约束则互相校准,提升整体几何一致性。
- 单卡部署、秒级推理
不同于需要迭代优化的传统方法(可能耗时数分钟甚至数小时),混元世界模型1.1采用纯前馈架构,在单次正向传播中直接输出所有3D属性。处理典型的8-32视图输入,本地耗时仅1秒。
架构设计
更多详情可查看官方公告。
