美团 EvoCUA 刷新开源 SOTA,会用电脑还会持续进化的智能体
大模型虽已具备强大的感知与推理能力,但在面对复杂的计算机图形界面操作(Computer Use)任务时,仍受限于高质量数据稀缺与环境交互反馈缺失的双重挑战。美团技术团队推出了 EvoCUA 模型并在Github、Huggingface开源,通过构建可验证数据合成引擎与十万级并发的交互沙盒,将训练范式从传统的"静态轨迹模仿"转变为高效的"经验进化学习"。该方案在权威评测基准 OSWorld 上以 56.7% 的成功率刷新了开源 SOTA(2026年1月6日榜单),验证了基于经验的进化范式在 GUI 智能体领域的有效性。 01 背景与挑战 随着大模型的发展,AI 已经具备了强大的感知与推理能力。但在真实的使用场景中,我们希望 Agent 不仅能回答问题,更能解决问题------比如自动处理 Excel 表格、在浏览器中完成复杂的资料检索或跨应用协同。这种对解决问题能力的追求,推动了基础模型从 Chat(对话者)到 Agent(行动者) 的转变。 在这一进程中,Computer Use Agent(CUA,计算机操作智能体) 是一个关键里程碑。CUA打破了 API 的限制,构建了一种原生的交...
