您现在的位置是:首页 > 文章详情

IBM Research 创建了衡量 AI 的新基准:AGENT

日期:2021-10-10点击:538

IBM Research 宣布创建了 AGENT,一个评估 AI 模型核心心理推理能力或常识的基准。“它将使我们能够构建和测试 AI 模型,以与人类相同的方式推理和学习其他思维。”

IBM 研究软件工程师 Abishek Bhandwaldar 和 MIT 博士后 Tianmin Shu 在一篇博客中表示我们已经在构建可以推断心理状态、预测未来行为甚至与人类合作伙伴合作的 AI 代理方面取得了进展。然而,我们还缺乏一个严格的基准来评估人工智能模型的核心心理推理能力 —— 它的常识

基于此,他们创建并验证了 AGENT(Action、Goal、Efficiency、constraint、uTility)基准。AGENT 被用于挑战两个基线模型,并使用 IBM 开发的专注于泛化的协议评估了它们的性能。结果表明,该基准可用于评估任何 AI 模型的核心心理推理能力;以了解其社会意识以及在现实世界中与人类互动的潜力。 

根据介绍,AGENT 是一个大型 3D 动画数据集,其中包含在各种物理约束下移动并与各种对象交互的代理;灵感来自探索幼儿认知发展的实验这些视频中包含了不同的试验,每个试验都包括一个或多个代理在特定物理环境中的典型行为的“familiarization”视频,以及同一代理在新环境中的行为的“test”视频;鉴于 agent 在相应的熟悉视频中的行为,这些视频则被标记为"expected"或"surprising"。

这些试验评估了一组最小的关键常识概念,这些概念被认为是幼儿核心心理学的一部分。试验分为四种情况:目标偏好、行动效率、未观察到的约束和成本回报权衡。每个场景都有几个变体或类型,基本版本复制婴儿研究中使用的刺激,以及更多样化和更具挑战性的其他设置。

更多详情可查看官方博客

原文链接:https://www.oschina.net/news/163382/ibm-agent-evaluating-common-sense-in-ai
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章