微软发布 OmniParser V2,将任意 LLM 变成可操作计算机的 AI Agent
微软近日发布了 OmniParser V2 版本,该工具能够将各种 LLM 变成可操控计算机的 AI Agent。
图形用户界面(GUI)自动化需要能够理解并交互于用户屏幕的 Agent。然而,使用通用 LLM 模型作为 GUI Agent 会面临几个挑战:1)可靠地识别用户界面中的可交互图标;2)理解屏幕截图中各种元素的语义并准确地将预期操作与屏幕上的相应区域关联起来。
OmniParser 通过将 UI 屏幕截图从像素空间“分词”为可由 LLMs 解析的结构化元素来弥补这一差距。这使得 LLMs 能够在一组解析后的可交互元素的基础上进行基于检索的下一步操作预测。
OmniParser V2 将这一能力提升到了一个新的水平。与它的前一个版本相比,它在检测更小的可交互元素方面实现了更高的准确性,并且推理速度更快,使其成为 GUI 自动化的一个有用工具。
特别是,OmniParser V2 通过使用更大的可交互元素检测数据集和图标功能描述数据集进行了训练。通过减少图标描述模型的图像大小,让 OmniParser V2 的延迟比前一版本降低了 60%。
值得注意的是,Omniparser+GPT-4o 在最近发布的高分辨率屏幕和小型目标图标特征的 grounding 基准 ScreenSpot Pro 中实现了最先进的平均准确率 39.6,这比 GPT-4o 原始得分 0.8 有了显著提升。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Univer Clipsheet:一款功能超全面还超简单的 Chrome 开源爬虫插件
Clipsheet是一款完全开源的Chrome爬虫插件, 通过易用的交互界面以所见即所得的方式, 快速的从页面中采集到你想要的表格,且可以通过简单配置将采集工作自动化。 [Github]:https://github.com/dream-num/univer-clipsheet [官方网站]:Univer | ClipSheet [Chrome商店]:Chrome插件商店-Clipsheet 如何安装 Clipsheet ? 可以直接访问上面的 Chrome商店链接安装,如果无法访问外网,可以通过该下载链接Docs,下载插件的压缩包安装。 [插件压缩包安装教程]:Univer clipsheet 下载链接 快速开始 安装插件成功后,以亚马逊的列表页作为展示, 可以看到Clipsheet插件已经在该网页中自动检测到 4 个表格,此时插件内快速采集的按钮也是高亮的, 直接点击按钮就可以通过插件采集到我们的第一个表格 高级功能教程: 仅通过所见即所得的方式从网页中采集表格可能是不够的,Clipsheet插件还提供各种高级功能以便我们将采集这一过程自动化,我们这里列出了插件高级功能的教...
- 下一篇
MathLabTool 数学仿真、图形化工具(250217)
MathLabTool 是一款数学仿真、图形化工具,可为数学相关的实验、仿真、图形化等各类需求,提供便捷工具。 可以为数据绘制各类 2D、3D 图形,视频、图像处理,显示实时串口数据图形,封装各类算法。 https://www.oschina.net/p/mathlabtool 更新功能列表(250217): 增加线性回归算法。 增加低通滤波算法。 var lr_ret = mlt_liner_r([2.0, 3.0, 4.0, 6.0, 8.0, 11.0, 14.0, 18.0, 222.0]); var lp_ret = mlt_low_pass([2.0, 3.0, 4.0, 3.0, 5.0, 6.0, 4.0, 3.0, 2.0], 3); 使用线性回归和低通滤波后还原信号:
相关文章
文章评论
共有0条评论来说两句吧...