您现在的位置是:首页 > 文章详情

谷歌 DeepMind 开放具身推理模型 Gemini Robotics-ER 1.5

日期:2025-09-28点击:19

谷歌发布了其首款可广泛使用的机器人具身推理模型Gemini Robotics-ER 1.5,并将其定位为“机器人的高级大脑”。该模型在学术与内部基准测试中均达到了当前最佳水平,现已通过Google AI Studio与Gemini API预览版开放接入。

Gemini Robotics-ER 1.5基于Gemini多模态基础模型,并针对物理世界交互进行了专项微调。它在保留通用推理能力的同时,新增了四项核心功能:

  1. 低延迟的强空间推理,可生成语义精准的二维点并支持“指向任何你能拿起的东西”等命令;
  2. 长周期任务编排,结合时空推理、进度估算与成功检测,实现“根据图片整理办公桌”这类复杂指令的闭环;
  3. 原生工具调用,可实时调用Google Search查询公开信息,也可触发视觉-语言-动作模型(VLA)或任意第三方用户函数;
  4. 以及灵活的“思考预算”,允许开发者在延迟与准确率之间自由权衡,使模型既能在反应式抓取中实现毫秒级响应,又能在多步装配规划时进行深度推理。在安全层面,升级后的语义过滤器能够识别并拒绝超出机器人载荷或违反物理约束的危险计划。

该模型已集成至Gemini GenAI SDK for Python。开发者只需输入一张厨房场景图,即可获得每个物体的高质量二维坐标,再配合机器人的3D传感器便可生成精确的运动规划。

官方示例显示,机器人能够自主上网查询当地的回收规则,将桌面物品按照compost、recycle、landfill三类进行分类,并放回原位,完整演示了“查资料—感知—规划—执行”的多步闭环过程。

模型地址:https://deepmind.google/models/gemini-robotics/

原文链接:https://www.oschina.net/news/374963/google-deepmind-gemini-robotics
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章