IBM Research 创建了衡量 AI 的新基准：AGENT-低调大师

IBM Research 创建了衡量 AI 的新基准：AGENT

2021-10-10 687

IBM Research 宣布创建了 AGENT，一个评估 AI 模型核心心理推理能力或常识的基准。“它将使我们能够构建和测试 AI 模型，以与人类相同的方式推理和学习其他思维。”

IBM 研究软件工程师 Abishek Bhandwaldar 和 MIT 博士后 Tianmin Shu 在一篇博客中表示，“我们已经在构建可以推断心理状态、预测未来行为甚至与人类合作伙伴合作的 AI 代理方面取得了进展。然而，我们还缺乏一个严格的基准来评估人工智能模型的核心心理推理能力 —— 它的常识。”

基于此，他们创建并验证了 AGENT（Action、Goal、Efficiency、constraint、uTility）基准。AGENT 被用于挑战两个基线模型，并使用 IBM 开发的专注于泛化的协议评估了它们的性能。结果表明，该基准可用于评估任何 AI 模型的核心心理推理能力；以了解其社会意识以及在现实世界中与人类互动的潜力。

根据介绍，AGENT 是一个大型 3D 动画数据集，其中包含在各种物理约束下移动并与各种对象交互的代理；灵感来自探索幼儿认知发展的实验。这些视频中包含了不同的试验，每个试验都包括一个或多个代理在特定物理环境中的典型行为的“familiarization”视频，以及同一代理在新环境中的行为的“test”视频；鉴于 agent 在相应的熟悉视频中的行为，这些视频则被标记为"expected"或"surprising"。

这些试验评估了一组最小的关键常识概念，这些概念被认为是幼儿核心心理学的一部分。试验分为四种情况：目标偏好、行动效率、未观察到的约束和成本回报权衡。每个场景都有几个变体或类型，基本版本复制婴儿研究中使用的刺激，以及更多样化和更具挑战性的其他设置。

更多详情可查看官方博客。

微信关注我们

原文链接：https://www.oschina.net/news/163382/ibm-agent-evaluating-common-sense-in-ai

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Trivy —— 使用 Go 语言开发的容器漏洞扫描工具

Trivy 是一个简单而且功能完整的容器漏洞扫描工具，特别使用用于持续集成。准确性比较在 Alpine Linux 中检测的漏洞(2019/05/12) 详细的比较请看Comparison with other scanners 特性全面检测漏洞操作系统 (Alpine,Red Hat Universal Base Image, Red Hat Enterprise Linux, CentOS, Debian and Ubuntu) 应用依赖(Bundler, Composer, Pipenv, npm, yarn and Cargo) 简单 Specify only an image name 详情请看Quick Start和Examples 易于安装 No need for prerequirementssuch as installation of DB, libraries, etc. apt-get install , yum install and brew install is possible (SeeInstallation) 准确度高 Especially ...

2021-10-10

1358

今年年初，Ampere Computing 宣布将致力于支持固件生态系统中的开源，并为他们的 Ampere Altra 处理器和 Mount Jade 平台开发开源固件，如今他们承诺将每月发布一次开源固件。 Ampere Computing（以下简称 Ampere）是一家由 Renee James（英特尔前总裁）在 2017 年于美国成立的半导体公司，总部设在圣克拉拉。专注于开发以 ARM 为基础的计算机处理器。2019 年，Arm 与甲骨文先后向 Ampere 投资，为 Ampere 后续的发展提供了支持。 Ampere 专注于云和边缘计算数据中心领域，并凭借 Ampere Altra 处理器杀入了已被英特尔和 AMD 统治的服务器领域。通过近几年时间的发展，Ampere 已经证明了自己是迄今为止最有能力的 AArch64 服务器供应商，他们的新产品 Ampere Altra Max 拥有 128 个内核，在性能上可以与 AMD 和英特尔的最新产品竞争，而且由于 ARM 架构的特性，Ampere Altra Max 在能耗上显著优于竞争对手。 Ampere 在其官方博客上写道："...

2021-10-10

698

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。