腾讯混元世界模型 1.1 开源,单卡部署,秒级生成
腾讯混元世界模型 1.1 版本(WorldMirror)正式发布并开源,新增支持多视图及视频输入,单卡即可部署,秒级创造3D世界。“它让3D重建从专业工具变为人人可用的技术——任何人都能在秒级内从视频或图片创造出专业级3D场景。” 公告称,作为一个统一(any-to-any)的前馈式(feedforward)3D重建大模型,混元世界模型1.1解决了1.0版本仅支持文本或单图输入的局限,首次同时支持多模态先验注入和多任务统一输出的端到端3D重建。 此外,混元世界模型1.1还支持额外的相机、深度等多模态先验输入,并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种3D几何预测,性能大幅超过现有方法。 三大特性 灵活处理不同输入(any input) 传统3D重建方法只能处理原始图像,无法利用现实应用中常见的额外信息。混元世界模型1.1突破性地提出多模态先验引导机制,支持灵活注入: 相机位姿:提供全局视角约束,确保多视图一致性 相机内参:解决尺度歧义,精确投影几何关系 深度图:为纹理缺失区域(如反光面、无纹理区)提供像素级约束 系统采用分层编码策略:紧凑先验压缩为全局语义令牌,稠密...
