vivo 等提出 DiMo-GUI：模态分治 + 动态聚焦，GUI 智能体推理时扩展的新范式

2025-08-27 242

作者：vivo 互联网算法团队

本文入选 EMNLP 2025 Main Conference

EMNLP 会议全称为 Conference on Empirical Methods in Natural Language Processing，由国际计算语言学协会 ACL 举办，是自然语言处理和人工智能领域最重要的学术会议之一。EMNLP 2025 会议共有 8174 篇投稿，Main Conference 接收率仅为 22.16%。

项目主页：

https://github.com/vivo/DiMo-GUI

摘要：

本文介绍了一种无需额外训练的 GUI 定位框架 DiMo-GUI，针对多模态大语言模型（MLLMs）在复杂图形用户界面（GUI）定位任务中的挑战，通过动态视觉推理与模态感知优化显著提升性能。DiMo-GUI 采用逐级缩放的动态定位机制，迭代裁剪聚焦目标区域，减少视觉冗余；同时分离文本与图标模态，独立推理后结合指令评估确定最终目标，有效平衡多模态处理能力。在 GUI 定位任务最新的基准数据集上，DiMo-GUI 相较基线展现显著性能提升。作为即插即用框架，DiMo-GUI 适用于网页导航、移动应用自动化等场景，未来可通过回溯机制进一步提升鲁棒性。

该工作由 vivo 互联网算法团队、加州大学默塞德分校、昆士兰大学共同完成。

一、引言

随着图形用户界面（Graphical User Interface, GUI）在自动化导航和操作系统控制等领域的广泛应用，基于自然语言查询的 GUI 定位（GUI Grounding）成为多模态大语言模型（multimodal large language models, MLLMs）的重要研究方向。然而，GUI 环境的视觉复杂性、语言歧义以及空间杂乱等问题为精准定位带来了显著挑战。

本文基于最新研究《DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning》，介绍了一种无需额外训练的 GUI 定位框架——DiMo-GUI，通过动态视觉推理和模态感知优化显著提升了多模态大模型在复杂 GUI 环境中的定位性能，推动了推理时扩展（test-time scaling）在该领域的发展。

日常生活中，我们与电脑、手机的交互离不开图形用户界面。小到点赞、大到数据分析，我们都希望 AI 能像人一样，理解屏幕上的每一个按钮、每一段文字，并准确执行指令。然而，对于飞速发展中的多模态大模型来说，这却是前所未有的艰巨挑战。在一个复杂的 App、网页或桌面软件中，用户可能随手一句“点击开始播放”，但对于 AI 来说，准确找到这个指令对应的图标/按钮并不简单：

模态混杂：用户界面同时包含文本、图标、背景、装饰性元素等，干扰多；并且大多数 VLM 对文字理解更强，图标处理却弱，造成严重偏差；

冗余信息：高分辨率 UI 中，重要区域可能只占整体的几十分之一，模型容易定位错误区域。

研究发现，传统方法如基于文本推理或单次视觉定位的管道在高分辨率、视觉拥挤的 GUI 中表现不佳。例如在最新的 ScreenSpot-Pro 数据集上，大多数通用模型如 GPT-4o, Qwen2-VL 等只有 1%左右的正确率，即使是针对于 GUI 定位任务的 ShowUI, Aria-UI 等智能体也只有 10%左右的正确率。

二、关键改进：模态分离 + 动态定位

从上述问题出发，该研究推出零训练成本的 DiMo-GUI，通过模态感知的视觉推理推进训练时扩展，显著提升多模态大模型的图形界面（GUI）理解能力。主要的改进方式包括以下两点：

动态视觉定位：DiMo-GUI 采用逐级缩放机制，从粗略预测开始，基于初始坐标生成候选焦点区域，并通过迭代裁剪逐步聚焦目标。例如，首次推理后，模型以预测坐标为中心裁剪半个图像大小的区域作为下一轮输入，显著减少视觉冗余。动态迭代机制根据前后预测的坐标距离（小于图像对角线六分之一时停止）实现自适应停止，避免“过度思考”。

模态感知优化：DiMo-GUI 将 GUI 元素分为文本和图标两类，分别进行独立的定位推理，生成文本坐标（C_text）和图标坐标（C_icon）。随后，模型结合原始指令和全分辨率图像评估两个候选坐标，确定最终目标（C*），有效平衡文本和图标的处理能力。

这样的方式推动了推理时拓展（Test-time Scaling）在 GUI 定位这一领域的发展，提供了新的思路和方式。

三、实验结果：无需训练和任何额外数据，只在推理阶段就可以大幅提升性能

团队在最新的高分辨率 GUI 数据集 ScreenSpot-Pro 上验证发现：

DiMo-GUI 可以作为即插即用的框架大幅提升多个 GUI 模型的性能。

其中 OS-Atlas-7B 在引入 DiMo-GUI 之后获得了超过两倍的指标提升（18.9% -- 49.7%）, UGround-7B 和 UGround-V1-7B 也均获得了超过 10%的指标提升。

在相对简单的 ScreenSpot 数据集上，DiMo-GUI 同样可以提升多个模型的性能。

定性结果表示，模型加入 DiMo-GUI 之后可以通过动态定位逐步逼近正确结果。

四、总结

DiMo-GUI 提供了一种高效、通用且无需训练的 GUI 定位框架，通过动态视觉推理和模态感知优化显著提升了多模态大语言模型在复杂 GUI 环境中的表现。其“即插即用”特性使其可无缝集成到现有 GUI Agent 中，适用于网页导航、移动应用自动化等场景。未来研究可探索引入回溯机制以纠正早期错误，进一步提升定位鲁棒性。

微信关注我们

原文链接：https://my.oschina.net/vivotech/blog/18689577

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

谷歌发布新图像生成模型 nano banana

谷歌正式发布了其最先进的图像生成与编辑模型——Gemini 2.5 Flash Image（又名 nano banana）。据官方介绍，Gemini 2.5 Flash Image 的主要特点包括下面几点：充分保持角色的一致性：它可以轻松地将同一个角色置于不同的环境中，或者从多个角度展示同一款产品，同时完美地保持其核心主体不变。基于提示的图片编辑：允许用户通过简单的自然语言指令，对图片进行精准的局部修改。利用 Gemini 的现实世界知识：模型可借助 Gemini 强大的世界知识库，让图像生成变得更加「智能」。多幅图像融合：可以将一张图片中的物体「放」进另一张图片的场景里，整个过程只需一条提示指令就能完成。性能表现上，Gemini 2.5 Flash Image 在多项基准测试上均为第一名，超越 OpenAI ChatGPT 4o（GPT Image 1 high）、Qwen Image Edit 等模型。关于调用 API，具体的定价是每百万输出 token 30 美元，官方介绍，生成一张图片大约消耗 1290 个输出 token，也就是说，每张图片的成本约为 0.03...

2025-08-27

180

百度旗下AI搜索应用在完成前期紧密测试后，于近日正式以全新名称“梯子AI”上架应用市场。据悉，这款应用最初于8月10日以“Tizzy.ai”之名发布，迅速吸引了众多科技爱好者的关注。经过一系列优化与迭代，其版本号从初版的1.0.0直接跃升至1.2.0，不仅名称焕然一新，功能与服务也实现了全面升级。 “梯子AI”被定位为智能搜索助手，它依托百度强大的多个大模型能力开发而成，主打无广告智能搜索服务。这一创新定位旨在打破传统搜索模式，通过整合深度思考、资源检索及影视娱乐等多功能于一体，为用户提供“简单搜索，一触即达”的极致体验。在功能设计上，“梯子AI”展现了其独特的优势。其AI双模智能搜索功能支持自动思考与深度思考的双模式智能引擎，能够精准分析全网信息，并结合用户偏好提供个性化答案，使搜索结果更加高效、精准。同时，应用还注重交互体验的极简设计，简洁的搜索框让用户输入问题后即可直达答案，全程无任何推广信息干扰，真正实现了“纯净搜索”。除了智能搜索外，“梯子AI”还构建了丰富的短剧生态，网罗了全球热门电影、电视剧、短剧等海量影视资源，让用户畅看无阻。更令人惊喜的是，在观看短剧过程中，用户...

2025-08-27

320

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。