谷歌 DeepMind 开放具身推理模型 Gemini Robotics-ER 1.5-低调大师

谷歌 DeepMind 开放具身推理模型 Gemini Robotics-ER 1.5

2025-09-28 282

谷歌发布了其首款可广泛使用的机器人具身推理模型Gemini Robotics-ER 1.5，并将其定位为“机器人的高级大脑”。该模型在学术与内部基准测试中均达到了当前最佳水平，现已通过Google AI Studio与Gemini API预览版开放接入。

Gemini Robotics-ER 1.5基于Gemini多模态基础模型，并针对物理世界交互进行了专项微调。它在保留通用推理能力的同时，新增了四项核心功能：

低延迟的强空间推理，可生成语义精准的二维点并支持“指向任何你能拿起的东西”等命令；
长周期任务编排，结合时空推理、进度估算与成功检测，实现“根据图片整理办公桌”这类复杂指令的闭环；
原生工具调用，可实时调用Google Search查询公开信息，也可触发视觉-语言-动作模型（VLA）或任意第三方用户函数；
以及灵活的“思考预算”，允许开发者在延迟与准确率之间自由权衡，使模型既能在反应式抓取中实现毫秒级响应，又能在多步装配规划时进行深度推理。在安全层面，升级后的语义过滤器能够识别并拒绝超出机器人载荷或违反物理约束的危险计划。

该模型已集成至Gemini GenAI SDK for Python。开发者只需输入一张厨房场景图，即可获得每个物体的高质量二维坐标，再配合机器人的3D传感器便可生成精确的运动规划。

官方示例显示，机器人能够自主上网查询当地的回收规则，将桌面物品按照compost、recycle、landfill三类进行分类，并放回原位，完整演示了“查资料—感知—规划—执行”的多步闭环过程。

模型地址：https://deepmind.google/models/gemini-robotics/

微信关注我们

原文链接：https://www.oschina.net/news/374963/google-deepmind-gemini-robotics

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

尽管投资创纪录，但仅有 12% 的 AI 项目实现全面部署

Riverbed 最新发布的一项调查结果指出，各组织正高度致力于AI的采用，并正在战略性地转型IT运营以支持AI。然而尽管各组织的整体AI投资几乎翻了一番，且87%的组织表示其AIOps计划的投资回报率已达到或超过预期，但只有12%的AI项目实现了企业范围的全面部署。这项全球调查访问了来自七个国家/地区和多个行业的 1,200 名商业决策者、IT 领导者和技术专家，全面概述了企业如何在 IT 运营中实施 AI，包括如何应对挑战、部署工具、采用标准以及制定成功策略。探讨了：AI 采用和成功策略方面的差距；可观察性工具部署的变化；统一通信工具的现状；OpenTelemetry 框架的采用情况；以及 AI 的数据基础设施。各组织报告称，他们在实施 AI 方面面临诸多重大障碍。大多数组织尚未做好全面准备来推出 AI 项目，面临的挑战包括持续存在的数据质量问题，以及领导层的乐观态度与实施的技术现实之间的差距。为了寻求切实可行的 AI 解决方案，各组织正在积极整合IT运营中的工具和供应商，采用统一平台，转向开放标准，通过统一通信解决问题，并应对 AI 数据在IT基础设施中移动的挑战。研究发现...

2025-09-28

304

Meta公司首席技术官安德鲁·博斯沃思披露，公司已将人形机器人研发提升至与AR同等重要的战略高度，未来将投入数十亿美元。Meta今年早些时候成立了专门的研究团队，正式入局人形机器人领域。博斯沃思指出，人形机器人发展的瓶颈在于软件而非硬件，例如机器人在执行精细力度任务时，常因无法精确感知和控制力量而失败。为解决这一问题，Meta计划采取类似谷歌安卓的开放平台策略，不追求成为硬件制造商，而是开发一套软件系统并授权给其他生产商，任何符合特定规格的机器人硬件都可搭载Meta的软件平台，以此推动整个行业生态发展，成为行业标准制定者。 Meta新成立的超级智能AI实验室将与机器人团队合作，构建一个“世界模型”，模拟现实世界物理规律，为机器人提供空间感知和精细操作能力，弥补现有机器人的不足。博斯沃思质疑特斯拉通过视觉数据驱动机器人的方法，认为机器人领域的数据采集难度远高于自动驾驶，这也是Meta选择自建基础模型的原因。在人才方面，Meta招揽了一支强大的技术团队，由自动驾驶公司Cruise的前CEO马克·惠顿领导，并吸引了MIT教授金相培等多位资深工程师加入，共同推动Meta人形机器人战略的发...

2025-09-28

297

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。