Meta 开源 Agent 评测基准 Gaia2 和 ARE 评测框架
Meta发布了新一代Agent评测基准Gaia2及配套开源框架Meta Agents Research Environments(ARE),提供了1120个手机应用级的真实场景、多维度能力测试以及公开排行榜,旨在推动社区研究更稳定、可复现的AI Agent。 Gaia2作为2023年GAIA基准的继任者,任务类型从只读问答升级为读写交互式任务。它覆盖了执行、搜索、歧义处理、适应性、时间推理、Agent间协作、噪声容忍等七大赛道,共包含1000条全新的人工撰写场景。这些场景均基于Email、Calendar、Contacts、Shopping、FileSystem等12款模拟应用构建,能够模拟异步故障、API超时、突发消息等真实的混乱环境。 数据集以CC BY 4.0协议共享,ARE框架以MIT协议开源,并配套了公开排行榜与在线演示空间,支持开发者上传模型结果、查看结构化交互轨迹。 https://huggingface.co/blog/gaia2 https://huggingface.co/spaces/meta-agents-research-environments/leader...
