谷歌推出 RT-2,能够像人类一样思考和行动
谷歌宣布推出首个 Robotics Transformer 2 (RT-2) 视觉-语言-动作 (VLA) 模型。可以从网络和机器人数据中学习,并将这些知识转化为用于机器人控制的通用指令,同时保留 web-scale 能力。 “RT-2 显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力。这包括解释新命令并通过执行基本推理(例如关于对象类别或高级描述的推理)来响应用户命令。 ” 根据介绍,RT-2 是一个基于 Transformer 的模型,通过网络上的文本和图像进行训练,并能直接输出机器人行为指令。就如同语言模型从网络文本中学习通用概念和思想,RT-2 也从网页数据中吸取知识以驱动机器人行为。“换句话说,RT-2 可以说机器人语言。” 去年,谷歌 DeepMind 的机器人团队曾展示了 Robotics Transformer (RT-1),可训练日常机器人系统执行诸如拾放和开启抽屉等任务。该系统基于包含 130,000 次演示的数据库,据团队称,有“超过 700”项任务的成功率达到 97%。 谷歌 DeepMind 机器人技术主管 Vincent Vanhoucke 在...

