谷歌 DeepMind 开放具身推理模型 Gemini Robotics-ER 1.5
谷歌发布了其首款可广泛使用的机器人具身推理模型Gemini Robotics-ER 1.5,并将其定位为“机器人的高级大脑”。该模型在学术与内部基准测试中均达到了当前最佳水平,现已通过Google AI Studio与Gemini API预览版开放接入。 Gemini Robotics-ER 1.5基于Gemini多模态基础模型,并针对物理世界交互进行了专项微调。它在保留通用推理能力的同时,新增了四项核心功能: 低延迟的强空间推理,可生成语义精准的二维点并支持“指向任何你能拿起的东西”等命令; 长周期任务编排,结合时空推理、进度估算与成功检测,实现“根据图片整理办公桌”这类复杂指令的闭环; 原生工具调用,可实时调用Google Search查询公开信息,也可触发视觉-语言-动作模型(VLA)或任意第三方用户函数; 以及灵活的“思考预算”,允许开发者在延迟与准确率之间自由权衡,使模型既能在反应式抓取中实现毫秒级响应,又能在多步装配规划时进行深度推理。在安全层面,升级后的语义过滤器能够识别并拒绝超出机器人载荷或违反物理约束的危险计划。 该模型已集成至Gemini GenAI SDK for...
