微软发布 OmniParser V2，将任意 LLM 变成可操作计算机的 AI Agent-低调大师

微软发布 OmniParser V2，将任意 LLM 变成可操作计算机的 AI Agent

2025-02-17 236

微软近日发布了 OmniParser V2 版本，该工具能够将各种 LLM 变成可操控计算机的 AI Agent。

图形用户界面（GUI）自动化需要能够理解并交互于用户屏幕的 Agent。然而，使用通用 LLM 模型作为 GUI Agent 会面临几个挑战：1）可靠地识别用户界面中的可交互图标；2）理解屏幕截图中各种元素的语义并准确地将预期操作与屏幕上的相应区域关联起来。

OmniParser 通过将 UI 屏幕截图从像素空间“分词”为可由 LLMs 解析的结构化元素来弥补这一差距。这使得 LLMs 能够在一组解析后的可交互元素的基础上进行基于检索的下一步操作预测。

OmniParser V2 将这一能力提升到了一个新的水平。与它的前一个版本相比，它在检测更小的可交互元素方面实现了更高的准确性，并且推理速度更快，使其成为 GUI 自动化的一个有用工具。

特别是，OmniParser V2 通过使用更大的可交互元素检测数据集和图标功能描述数据集进行了训练。通过减少图标描述模型的图像大小，让 OmniParser V2 的延迟比前一版本降低了 60%。

值得注意的是，Omniparser+GPT-4o 在最近发布的高分辨率屏幕和小型目标图标特征的 grounding 基准 ScreenSpot Pro 中实现了最先进的平均准确率 39.6，这比 GPT-4o 原始得分 0.8 有了显著提升。

详情查看发布公告。

微信关注我们

原文链接：https://www.oschina.net/news/334343/omniparser-v2

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Univer Clipsheet：一款功能超全面还超简单的 Chrome 开源爬虫插件

Clipsheet是一款完全开源的Chrome爬虫插件, 通过易用的交互界面以所见即所得的方式，快速的从页面中采集到你想要的表格，且可以通过简单配置将采集工作自动化。 [Github]:https://github.com/dream-num/univer-clipsheet [官方网站]:Univer | ClipSheet [Chrome商店]:Chrome插件商店-Clipsheet 如何安装 Clipsheet ? 可以直接访问上面的 Chrome商店链接安装，如果无法访问外网，可以通过该下载链接Docs，下载插件的压缩包安装。 [插件压缩包安装教程]：Univer clipsheet 下载链接快速开始安装插件成功后，以亚马逊的列表页作为展示，可以看到Clipsheet插件已经在该网页中自动检测到 4 个表格，此时插件内快速采集的按钮也是高亮的，直接点击按钮就可以通过插件采集到我们的第一个表格高级功能教程：仅通过所见即所得的方式从网页中采集表格可能是不够的，Clipsheet插件还提供各种高级功能以便我们将采集这一过程自动化，我们这里列出了插件高级功能的教...

2025-02-17

176

MathLabTool 是一款数学仿真、图形化工具，可为数学相关的实验、仿真、图形化等各类需求，提供便捷工具。可以为数据绘制各类 2D、3D 图形，视频、图像处理，显示实时串口数据图形，封装各类算法。 https://www.oschina.net/p/mathlabtool 更新功能列表（250217）：增加线性回归算法。增加低通滤波算法。 var lr_ret = mlt_liner_r([2.0, 3.0, 4.0, 6.0, 8.0, 11.0, 14.0, 18.0, 222.0]); var lp_ret = mlt_low_pass([2.0, 3.0, 4.0, 3.0, 5.0, 6.0, 4.0, 3.0, 2.0], 3); 使用线性回归和低通滤波后还原信号：

2025-02-18

156

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。