EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式
作者:vivo 互联网算法团队
本文入选 EMNLP 2025 Main Conference
EMNLP 会议全称为 Conference on Empirical Methods in Natural Language Processing,由国际计算语言学协会 ACL 举办,是自然语言处理和人工智能领域最重要的学术会议之一。EMNLP 2025 会议共有 8174 篇投稿,Main Conference 接收率仅为 22.16%。
项目主页:
https://github.com/vivo/DiMo-GUI
摘要:
本文介绍了一种无需额外训练的 GUI 定位框架 DiMo-GUI,针对多模态大语言模型(MLLMs)在复杂图形用户界面(GUI)定位任务中的挑战,通过动态视觉推理与模态感知优化显著提升性能。DiMo-GUI 采用逐级缩放的动态定位机制,迭代裁剪聚焦目标区域,减少视觉冗余;同时分离文本与图标模态,独立推理后结合指令评估确定最终目标,有效平衡多模态处理能力。在 GUI 定位任务最新的基准数据集上,DiMo-GUI 相较基线展现显著性能提升。作为即插即用框架,DiMo-GUI 适用于网页导航、移动应用自动化等场景,未来可通过回溯机制进一步提升鲁棒性。
该工作由 vivo 互联网算法团队、加州大学默塞德分校、昆士兰大学共同完成。
一、引言
随着图形用户界面(Graphical User Interface, GUI)在自动化导航和操作系统控制等领域的广泛应用,基于自然语言查询的 GUI 定位(GUI Grounding)成为多模态大语言模型(multimodal large language models, MLLMs)的重要研究方向。然而,GUI 环境的视觉复杂性、语言歧义以及空间杂乱等问题为精准定位带来了显著挑战。
本文基于最新研究《DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning》,介绍了一种无需额外训练的 GUI 定位框架——DiMo-GUI,通过动态视觉推理和模态感知优化显著提升了多模态大模型在复杂 GUI 环境中的定位性能,推动了推理时扩展(test-time scaling)在该领域的发展。
日常生活中,我们与电脑、手机的交互离不开图形用户界面。小到点赞、大到数据分析,我们都希望 AI 能像人一样,理解屏幕上的每一个按钮、每一段文字,并准确执行指令。然而,对于飞速发展中的多模态大模型来说,这却是前所未有的艰巨挑战。在一个复杂的 App、网页或桌面软件中,用户可能随手一句“点击开始播放”,但对于 AI 来说,准确找到这个指令对应的图标/按钮并不简单:
模态混杂:用户界面同时包含文本、图标、背景、装饰性元素等,干扰多;并且大多数 VLM 对文字理解更强,图标处理却弱,造成严重偏差;
冗余信息:高分辨率 UI 中,重要区域可能只占整体的几十分之一,模型容易定位错误区域。
研究发现,传统方法如基于文本推理或单次视觉定位的管道在高分辨率、视觉拥挤的 GUI 中表现不佳。例如在最新的 ScreenSpot-Pro 数据集上,大多数通用模型如 GPT-4o, Qwen2-VL 等只有 1%左右的正确率, 即使是针对于 GUI 定位任务的 ShowUI, Aria-UI 等智能体也只有 10%左右的正确率。
二、关键改进:模态分离 + 动态定位
从上述问题出发,该研究推出零训练成本的 DiMo-GUI,通过模态感知的视觉推理推进训练时扩展,显著提升多模态大模型的图形界面(GUI)理解能力。主要的改进方式包括以下两点:
动态视觉定位:DiMo-GUI 采用逐级缩放机制,从粗略预测开始,基于初始坐标生成候选焦点区域,并通过迭代裁剪逐步聚焦目标。例如,首次推理后,模型以预测坐标为中心裁剪半个图像大小的区域作为下一轮输入,显著减少视觉冗余。动态迭代机制根据前后预测的坐标距离(小于图像对角线六分之一时停止)实现自适应停止,避免“过度思考”。
模态感知优化:DiMo-GUI 将 GUI 元素分为文本和图标两类,分别进行独立的定位推理,生成文本坐标(C_text)和图标坐标(C_icon)。随后,模型结合原始指令和全分辨率图像评估两个候选坐标,确定最终目标 (C*),有效平衡文本和图标的处理能力。
这样的方式推动了推理时拓展(Test-time Scaling)在 GUI 定位这一领域的发展,提供了新的思路和方式。
三、实验结果:无需训练和任何额外数据,只在推理阶段就可以大幅提升性能
团队在最新的高分辨率 GUI 数据集 ScreenSpot-Pro 上验证发现:
DiMo-GUI 可以作为即插即用的框架大幅提升多个 GUI 模型的性能。
其中 OS-Atlas-7B 在引入 DiMo-GUI 之后获得了超过两倍的指标提升(18.9% -- 49.7%), UGround-7B 和 UGround-V1-7B 也均获得了超过 10%的指标提升。
在相对简单的 ScreenSpot 数据集上,DiMo-GUI 同样可以提升多个模型的性能。
定性结果表示,模型加入 DiMo-GUI 之后可以通过动态定位逐步逼近正确结果。
四、总结
DiMo-GUI 提供了一种高效、通用且无需训练的 GUI 定位框架,通过动态视觉推理和模态感知优化显著提升了多模态大语言模型在复杂 GUI 环境中的表现。其“即插即用”特性使其可无缝集成到现有 GUI Agent 中,适用于网页导航、移动应用自动化等场景。未来研究可探索引入回溯机制以纠正早期错误,进一步提升定位鲁棒性。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
2025 HarmonyOS创新赛|对话刘子安:向外走,做鸿蒙开发的新生力量
8 月 23 日,开源中国主办的“鸿蒙一夏”开发者系列沙龙-创新赛专场在郑州圆满落幕,吸引了来自全国各地近 200 位鸿蒙开发者的莅临参与,热度更是席卷云端,线上直播吸引 10000+ 人次观看,盛况空前。 本次沙龙重点宣讲了 2025 HarmonyOS 创新赛 的相关内容。作为鸿蒙生态最大规模开发者的官方赛事,今年的 HarmonyOS 创新赛基于 HarmonyOS 6 开发者 Beta 版本能力,聚焦六大赛题方向: 全场景一体化:挑战“ 1+8+N ”,将手表、平板、PC 等多设备联动,打造突破性的应用解决方案; 软硬件协同:聚焦人与设备之间的交互体验升级,结合软硬件(如手写笔、手势识别、语音交互),在各种社交场景中探索增强互动的新玩法; 智能化创新:运用 AI 大模型能力进行应用智能化创新探索,展现应用场景与 AI 大模型的深度融合; 3D 空间化融合:将 3D 视觉技术融入创作之中,创造更加沉浸式的交互感受; 全新交互形态:探索元服务、Agent 等全新交互形态,为用户带来前所未有的体验; 社会影响:关注无障碍领域的特殊人群需求,让目标用户群体享受科技发展带来的便利。 本次...
- 下一篇
比 Cursor 更快更稳定的 Coding Agent?
搞了 2 年直播,我也是搞出名堂来了。 张宏波说要来我们这里搞直播,聊一聊 Coding Agent。 张宏波是谁? 他是编程语言领域的专家,是 OCaml 语言的前核心开发人员,OCaml 编译器获得过 2023 年 ACM SIGPLAN 编程语言软件奖。 此外,他还创造了编程语言ReScript,被Meta、谷歌、育碧、TinyMCE 等多个公司商用。 就这成就,已经值得吹一辈子了吧? 但张宏波不一样,他觉得很遗憾。 因为 ReScript 具备相当的技术实力,并且远超一些同行,但是相较于微软的 TypeScript 或者谷歌的 Dart,ReScript 的影响力远没有达到它应有的高度。 他想要打造的,是一款现象级的编程语言。 一直以来,张宏波都不甘平庸。就连他当初考到清华大学电气工程及自动化系,都说是因为高考发挥失常才被调剂过去的。他真正想进的,是他一年后成功转入的清华电子系。 所以在 2022 年,张宏波结束了他在 Meta 的 5 年职业生涯,来到了粤港澳大湾区数字经济研究院(IDEA 研究院)组建了基础软件中心,从零开始创立了 MoonBit。 这里插一句,张宏波加入 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7,CentOS8安装Elasticsearch6.8.6
- 设置Eclipse缩进为4个空格,增强代码规范
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- MySQL8.0.19开启GTID主从同步CentOS8