IBM Research 创建了衡量 AI 的新基准:AGENT
IBM Research 宣布创建了 AGENT,一个评估 AI 模型核心心理推理能力或常识的基准。“它将使我们能够构建和测试 AI 模型,以与人类相同的方式推理和学习其他思维。” IBM 研究软件工程师 Abishek Bhandwaldar 和 MIT 博士后 Tianmin Shu 在一篇博客中表示,“我们已经在构建可以推断心理状态、预测未来行为甚至与人类合作伙伴合作的 AI 代理方面取得了进展。然而,我们还缺乏一个严格的基准来评估人工智能模型的核心心理推理能力—— 它的常识。” 基于此,他们创建并验证了 AGENT(Action、Goal、Efficiency、constraint、uTility)基准。AGENT 被用于挑战两个基线模型,并使用 IBM 开发的专注于泛化的协议评估了它们的性能。结果表明,该基准可用于评估任何 AI 模型的核心心理推理能力;以了解其社会意识以及在现实世界中与人类互动的潜力。 根据介绍,AGENT 是一个大型 3D 动画数据集,其中包含在各种物理约束下移动并与各种对象交互的代理;灵感来自探索幼儿认知发展的实验。这些视频中包含了不同的试验,每个试验都...
