您现在的位置是:首页 > 文章详情

Meta 开源 Agent 评测基准 Gaia2 和 ARE 评测框架

日期:2025-09-23点击:50

Meta发布了新一代Agent评测基准Gaia2及配套开源框架Meta Agents Research Environments(ARE),提供了1120个手机应用级的真实场景、多维度能力测试以及公开排行榜,旨在推动社区研究更稳定、可复现的AI Agent。

Gaia2作为2023年GAIA基准的继任者,任务类型从只读问答升级为读写交互式任务。它覆盖了执行、搜索、歧义处理、适应性、时间推理、Agent间协作、噪声容忍等七大赛道,共包含1000条全新的人工撰写场景。这些场景均基于Email、Calendar、Contacts、Shopping、FileSystem等12款模拟应用构建,能够模拟异步故障、API超时、突发消息等真实的混乱环境。

数据集以CC BY 4.0协议共享,ARE框架以MIT协议开源,并配套了公开排行榜与在线演示空间,支持开发者上传模型结果、查看结构化交互轨迹。

https://huggingface.co/blog/gaia2
https://huggingface.co/spaces/meta-agents-research-environments/leaderboard
https://github.com/facebookresearch/meta-agents-research-environments

原文链接:https://www.oschina.net/news/373975
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章