谷歌 DeepMind 开放具身推理模型 Gemini Robotics-ER 1.5

谷歌发布了其首款可广泛使用的机器人具身推理模型Gemini Robotics-ER 1.5,并将其定位为“机器人的高级大脑”。该模型在学术与内部基准测试中均达到了当前最佳水平,现已通过Google AI Studio与Gemini API预览版开放接入。

Gemini Robotics-ER 1.5基于Gemini多模态基础模型,并针对物理世界交互进行了专项微调。它在保留通用推理能力的同时,新增了四项核心功能:

  1. 低延迟的强空间推理,可生成语义精准的二维点并支持“指向任何你能拿起的东西”等命令;
  2. 长周期任务编排,结合时空推理、进度估算与成功检测,实现“根据图片整理办公桌”这类复杂指令的闭环;
  3. 原生工具调用,可实时调用Google Search查询公开信息,也可触发视觉-语言-动作模型(VLA)或任意第三方用户函数;
  4. 以及灵活的“思考预算”,允许开发者在延迟与准确率之间自由权衡,使模型既能在反应式抓取中实现毫秒级响应,又能在多步装配规划时进行深度推理。在安全层面,升级后的语义过滤器能够识别并拒绝超出机器人载荷或违反物理约束的危险计划。

该模型已集成至Gemini GenAI SDK for Python。开发者只需输入一张厨房场景图,即可获得每个物体的高质量二维坐标,再配合机器人的3D传感器便可生成精确的运动规划。

官方示例显示,机器人能够自主上网查询当地的回收规则,将桌面物品按照compost、recycle、landfill三类进行分类,并放回原位,完整演示了“查资料—感知—规划—执行”的多步闭环过程。

模型地址:https://deepmind.google/models/gemini-robotics/

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/374963/google-deepmind-gemini-robotics

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。