AI Agent 目前仍难胜任自由职业任务
最新基准研究显示,即便是当前最先进的 AI 智能体(AI Agents),在真实世界的自由职业任务中表现依旧乏力,成功率不足 3%。 https://arxiv.org/abs/2510.26787 此研究由 Scale AI 与 Center for AI Safety(CAIS)联合发起,该团队构建了一个名为 “Remote Labor Index”(远程劳动指数,RLI) 的基准,用以衡量 AI Agent 在真实、可付费的远程/自由职业任务上的能力。样本任务包括:从自由职业平台(如 Upwork)获取真实任务,涵盖数据抓取、图形设计、视频编辑、游戏开发、行政协作等多种类型。 在这些任务里,最强的 AI Agent 在所有任务中,可成功完成的只占极少数,且产生的“收入”(如果按人力计费)远低于人类。 研究指出,AI Agent 普遍难以胜任需要多步骤流程、多工具协作、与不明确需求沟通的任务。同时,AI Agent 缺乏持续记忆与长期项目积累能力,导致在真实自由职业环境中难以像人类那样不断迭代与自我修正。 虽然 AI Agent 在某些特定、结构化任务上表现不错,但距离完全替代远程...
