LegoGPT —— 根据文本提示生成物理稳定的乐高结构
LegoGPT 以端到端的方式根据用户提供的文本提示生成乐高结构。值得一提的是,生成的乐高结构物理上稳定且可搭建。
为了实现这一点,项目团队构建了一个大规模、物理稳定的乐高设计数据集及其相关标题,并训练一个自回归大型语言模型,通过下一个 token 预测来预测下一个要添加的积木。
为了提高最终设计的稳定性,在自回归推理过程中采用了有效的有效性检查和物理感知回滚,利用物理定律和装配约束来修剪不可行的标记预测。
实验结果表明,LegoGPT可以生成稳定、多样且美观的乐高设计,与输入文本提示紧密相关。
同时,项目团队还开发了一种基于文本的乐高纹理方法来生成彩色和纹理设计。其设计可以由人类手动组装,也可以由机械臂自动组装。
以及发布了新的数据集StableText2Lego,其中包含超过 47,000 个乐高结构、超过 28,000 个独特的 3D 对象,并附有详细的说明,以及代码和模型。
