OSWorld-MCP 正式发布:面向 Computer-Use Agents 产品的评测基准
OSWorld-MCP 已正式发布,这是首个用于在真实环境中全面评估 Computer-Use Agents 产品能力的基准测试。
OSWorld-MCP 综合衡量产品的模型上下文协议(MCP)工具调用能力、图形用户界面(GUI)操作技能以及决策表现,其作为 OSWorld 的扩展设计,提升了评估的真实度、平衡性和可比性。
主要特性:
- 158 个经过验证的 MCP 工具,涵盖 7 个常用应用程序(LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 和操作系统实用程序)。其中, 25 个是用于鲁棒性测试的干扰项工具。
- 250 项工具适用性任务 → 69% 的基准任务受益于 MCP 工具
- 可以进行多轮工具调用,这给决策带来了真正的挑战
- MCP 工具可提升模型准确率和效率——例如,OpenAI o3:8.3% → 20.4%(15 步)
- 观察到的最高工具调用率 ( TIR ) = 36.3%(Claude-4-Sonnet,50 步)→ 表明仍有很大的改进空间
- MCP 工具可提升代理商指标
- 工具调用次数越多,准确率越高
- 工具组合会带来重大挑战
下图是 OSWorld-MCP 评估框架,集成了 GUI 操作和 MCP 工具调用:
该项目已开源,其官网提供了完整的资源和说明。
https://github.com/X-PLUG/OSWorld-MCP
https://arxiv.org/abs/2510.24563


