通义实验室开源 GUI 智能体基座模型:MAI-UI
阿里通义实验室多模态交互团队开源了全尺寸 GUI 智能体基座模型——MAI-UI,首次将用户交互、 MCP 工具调用、端云协同三大能力通过自主进化数据管线和大规模在线强化学习技术,原生地集成于统一架构之中(目前 2B 与 8B 模型已开源)。 据介绍,MAI-UI 旨在成为一个能够理解和执行复杂自然语言指令、在图形用户界面(GUI)上自动完成任务的智能体。它致力于解决真实场景中的跨应用操作、模糊语义理解、主动用户交互和多步骤流程协调等挑战。 相比传统的 AndroidWorld 测试基准,MobileWorld 测评任务更难、更真、更贴近你的日常手机操作场景: ✅ 平均 27.8 步长程任务(相比 AndroidWorld 翻一倍) ✅ 超 60% 任务需跨 App 协作(从购物比价到行程规划) ✅ 首创两大硬核挑战: 智能体-用户交互式任务:用户指令模糊,需要agent主动提问澄清,拒绝幻觉。 MCP-GUI 混合任务:混合外部工具调用(如GitHub、Arxiv等)+ GUI操作,让手机迈向生产级能力。 当前 SOTA 模型成功率仅51.7%,端到端模型最高仅20.9%,新挑战任务...
