MEPNet —— 基于图像的 2D-3D 转换框架
MEPNet 是一个基于学习的框架,可以将人类设计师创造的基于图像的、分步骤的装配手册翻译成机器可理解的指令。 研究人员将这个问题表述为一个连续的预测任务:在每个步骤中,该模型都会读取手册,定位要添加到当前形状中的部件,并推断出它们在三维空间的位置。这项任务带来的挑战是在手册图像和真实的三维物体之间建立「二维到三维」的对应关系,以及对未见过的三维物体进行三维姿态预测,因为在一个步骤中要添加的新部件可能是全新的小积木,也可能是由以前的步骤拼成的物体。 安装 运行以下命令来安装必要的依赖项。 conda create -n lego_release python=3.9.12 conda activate lego_release pip -r requirements.txt 根据这个文档,可能需要手动安装 pytoch3d 0.5.0。 评估 从这里下载评估数据集和模型检查点,并将它们解压缩到代码的根目录下,然后运行 bash scripts/eval/eval_all.sh 结果将保存到 results/. 训练 要从头开始训练模型,首先从这里下载训练和验证数据集,然后分别解压到 d...
