全球首个真实物理环境多任务基准 RoboChallenge 发布-低调大师

全球首个真实物理环境多任务基准 RoboChallenge 发布

2025-10-16 140

全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试平台 RoboChallenge 基准测试平台于近日正式发布。

“我们正在构建一个真实世界的机器人测试和评估平台。在这里，研究人员和开发人员可以在统一的环境中验证和比较他们的机器人策略——涵盖从基本任务到复杂的真实场景。”

RoboChallenge 由 Dexmal 原力灵机联合 Hugging Face 共同发起。该测试平台的核心价值在于克服了现有机器人基准测试在真实环境下的性能验证、标准化测试条件和公开可访问测试平台等方面的挑战。

优点：

多样化任务：从物体操纵和场景交互到长期规划，涵盖机器人智能的多个维度。
多机器人：支持各种机器人形态，包括移动机器人和双手机器人。
公开公正：所有结果及排名均在平台上透明展示，确保公平可信。

该基准测试将为视觉语言动作模型（VLAs）在机器人中的实际应用提供更加可靠和可比较的评估标准，从而加速 VLA 模型从模拟环境走向实际物理世界的部署和验证进程。

微信关注我们

原文链接：https://www.oschina.net/news/377709

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Anthropic 发布 Claude Haiku 4.5，速度更快、价格更便宜

Anthropic 发布了新模型 Claude Haiku 4.5。官方表示该模型以极低的成本提供了接近前沿模型的强大性能，目标成为实时、低延迟任务（如聊天助手和客户服务）的理想选择。 Claude 家族有三个不同参数量级的模型：Claude Opus（大杯）、Sonnet（中杯）和 Haiku（小杯）。这次更新最大的看点是，小杯 Claude Haiku 4.5 在模型性能保持高水准的同时，速度更快、价格更便宜了。在应用场景方面，Anthropic 表示，Haiku 4.5 能够完美结合高智能与惊人的处理速度，满足用户对即时反馈的需求，专门针对实时聊天助手、在线客户服务代理以及辅助编程工具等需要高响应速度的应用场景设计。在性能方面，Claude Haiku 4.5 编码性能与 Sonnet 4 基本持平，但在成本上仅为后者的三分之一，处理速度则提升了超过两倍。据介绍，在衡量编程能力的权威基准测试 SWE-bench Verified 中，Haiku 4.5 取得了 73.3% 的高分，略微领先于 Sonnet 4 的 72.7%。价格方面，Haiku 4.5 定价为：每百万输...

2025-10-16

180

美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制（VSRM），针对大模型推理中的冗余回复与过度思考问题，精准奖励有效推理步骤，显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估，有效抑制无效步骤，兼容主流强化学习算法，助力高效、可靠的复杂推理任务。 1 背景以 DeepSeek-R1 为代表的大规模推理模型，通过简单有效的强化学习后训练方法，培养了强大的推理能力，但却导致模型倾向于生成冗余的回复。这使得模型在为每个输入请求生成响应时，需要花费更多的时间以及计算资源，最终消磨用户的耐心。针对这一缺陷，来自业务研发搜推平台部的算法团队提出可验证的过程奖励机制（VSRM），鼓励 CoT 中的"有效步骤"，惩戒"无效步骤"，最大限度保持性能的同时，实现高效推理。论文下载地址：PDF 通过在数学任务上的实验显示，在多个常用 Benchmark 上，VSRM 加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减，甚至在部分情况下提升了模型表现。 2 过度思考问题的本质此前的工作将过度思考问题的现象总结为：对于一个问题，模型倾向于给出多种不同的解答，特别简单的问题。...

2025-10-16

147

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。