全球首个真实物理环境多任务基准 RoboChallenge 发布
全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试平台 RoboChallenge 基准测试平台于近日正式发布。
“我们正在构建一个真实世界的机器人测试和评估平台。在这里,研究人员和开发人员可以在统一的环境中验证和比较他们的机器人策略——涵盖从基本任务到复杂的真实场景。”
RoboChallenge 由 Dexmal 原力灵机联合 Hugging Face 共同发起。该测试平台的核心价值在于克服了现有机器人基准测试在真实环境下的性能验证、标准化测试条件和公开可访问测试平台等方面的挑战。
优点:
- 多样化任务:从物体操纵和场景交互到长期规划,涵盖机器人智能的多个维度。
- 多机器人:支持各种机器人形态,包括移动机器人和双手机器人。
- 公开公正:所有结果及排名均在平台上透明展示,确保公平可信。
该基准测试将为视觉语言动作模型(VLAs)在机器人中的实际应用提供更加可靠和可比较的评估标准,从而加速 VLA 模型从模拟环境走向实际物理世界的部署和验证进程。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Anthropic 发布 Claude Haiku 4.5,速度更快、价格更便宜
Anthropic 发布了新模型 Claude Haiku 4.5。官方表示该模型以极低的成本提供了接近前沿模型的强大性能,目标成为实时、低延迟任务(如聊天助手和客户服务)的理想选择。 Claude 家族有三个不同参数量级的模型:Claude Opus(大杯)、Sonnet(中杯)和 Haiku(小杯)。 这次更新最大的看点是,小杯 Claude Haiku 4.5 在模型性能保持高水准的同时,速度更快、价格更便宜了。 在应用场景方面,Anthropic 表示,Haiku 4.5 能够完美结合高智能与惊人的处理速度,满足用户对即时反馈的需求,专门针对实时聊天助手、在线客户服务代理以及辅助编程工具等需要高响应速度的应用场景设计。 在性能方面,Claude Haiku 4.5 编码性能与 Sonnet 4 基本持平,但在成本上仅为后者的三分之一,处理速度则提升了超过两倍。据介绍,在衡量编程能力的权威基准测试 SWE-bench Verified 中,Haiku 4.5 取得了 73.3% 的高分,略微领先于 Sonnet 4 的 72.7%。 价格方面,Haiku 4.5 定价为:每百万输...
-
下一篇
可验证过程奖励在提升大模型推理效率中的探索与实践
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。 1 背景 以 DeepSeek-R1 为代表的大规模推理模型,通过简单有效的强化学习后训练方法,培养了强大的推理能力,但却导致模型倾向于生成冗余的回复。这使得模型在为每个输入请求生成响应时,需要花费更多的时间以及计算资源,最终消磨用户的耐心。 针对这一缺陷,来自业务研发搜推平台部的算法团队提出可验证的过程奖励机制(VSRM),鼓励 CoT 中的"有效步骤",惩戒"无效步骤",最大限度保持性能的同时,实现高效推理。 论文下载地址 :PDF 通过在数学任务上的实验显示,在多个常用 Benchmark 上,VSRM 加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减,甚至在部分情况下提升了模型表现。 2 过度思考问题的本质 此前的工作将过度思考问题的现象总结为:对于一个问题,模型倾向于给出多种不同的解答,特别简单的问题。...
相关文章
文章评论
共有0条评论来说两句吧...