OSWorld-MCP 正式发布：面向 Computer-Use Agents 产品的评测基准-低调大师

OSWorld-MCP 正式发布：面向 Computer-Use Agents 产品的评测基准

2025-11-04 205

OSWorld-MCP 已正式发布，这是首个用于在真实环境中全面评估 Computer-Use Agents 产品能力的基准测试。

OSWorld-MCP 综合衡量产品的模型上下文协议（MCP）工具调用能力、图形用户界面（GUI）操作技能以及决策表现，其作为 OSWorld 的扩展设计，提升了评估的真实度、平衡性和可比性。

主要特性：

158 个经过验证的 MCP 工具，涵盖 7 个常用应用程序（LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 和操作系统实用程序）。其中， 25 个是用于鲁棒性测试的干扰项工具。
250 项工具适用性任务 → 69% 的基准任务受益于 MCP 工具
可以进行多轮工具调用，这给决策带来了真正的挑战
MCP 工具可提升模型准确率和效率——例如，OpenAI o3：8.3% → 20.4%（15 步）
观察到的最高工具调用率 ( TIR ) = 36.3%（Claude-4-Sonnet，50 步）→ 表明仍有很大的改进空间
MCP 工具可提升代理商指标
工具调用次数越多，准确率越高
工具组合会带来重大挑战

下图是 OSWorld-MCP 评估框架，集成了 GUI 操作和 MCP 工具调用：

该项目已开源，其官网提供了完整的资源和说明。

https://github.com/X-PLUG/OSWorld-MCP
https://arxiv.org/abs/2510.24563

微信关注我们

原文链接：https://www.oschina.net/news/381549

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

马斯克提议用 AI 卫星“遮阳”降温

埃隆·马斯克本周在X上抛出新的气候“降温方案”：部署一组由人工智能控制的卫星，通过微小调整地球接收的太阳辐射量，以抑制全球变暖。这一构想类似学术界讨论多年的太空“遮阳伞”方案，但此前主要停留在理论阶段。马斯克提出，这种“大型太阳能AI卫星”可以通过反射调节地球吸收的能量；更有甚者，他声称如果借助月球工厂，年发电量可达百太瓦。但科学界对此诟病已久，研究显示，要在可观尺度上产生气候效果，可能需要数千颗卫星，成本高达数千亿美元，甚至数万亿美元。具有讽刺意味的是，SpaceX近期因环保问题遭美国空军叫停火箭发射，而马斯克却在提出“拯救气候”的太空方案。马斯克同时也在推动太空算力中心与高吞吐的Starlink V3卫星集群，这类下一代卫星的吞吐量可达每秒1太比特，有望成为太阳能驱动的轨道计算集群的基础设施核心。批评人士质疑，相比动辄万亿成本、治理难以落地的太空地球工程，诸如减少排放、提升能源效率、碳捕捉等“已验证技术”更可行。

2025-11-04

109

IEEE发布《2026年及未来技术影响：IEEE全球研究》（The Impact of Technology in 2026 and Beyond: an IEEE Global Study）的调查结果。这项调查覆盖了来自中国、巴西、印度、日本、英国和美国的全球技术领导者，内容包括2026年将受到AI影响最大的技术领域，对AI市场增长、益处、使用和技能的预期，以及未来科技发展趋势。 Agentic AI 的使用率不断增长，将推动对更多数据分析师的需求 Agentic AI（智能体AI）就像一个智能助手，在接到任务后可独立工作，但其工作成果仍需人工复核。这种技术的采用率正在上升，且全球绝大多数技术专家（96%）认为，Agentic AI的创新、探索和应用将在2026年以闪电般的速度继续推进，因为无论是成熟企业还是初创公司都在加大对该技术的投资和投入。然而，Agentic AI的崛起不会局限于商业领域。受访者预测，该技术将于2026年在消费者中因以下用途实现普及或接近普及的采用率：个人助理/日程安排/家庭日历管理：52% 数据隐私管理：45% 健康监测：41% 琐事和家务自动化（如日常...

2025-11-04

150

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。