清华&面壁团队队开源 AgentCPM-GUI,面向中文 APP 的端侧 GUI Agent
近日,清华大学联合面壁智能团队发布了 AgentCPM-GUI —— 一个面向中文 APP 的端侧 GUI Agent,已在中文 Android 场景和开源 Benchmark 取得 SOTA 性能。
据介绍,与传统 Agent 相比,GUI Agent 更强调通过图形界面的窗口、按钮而非文本去执行用户指令进行交互,从而跳出单一的、固定的工作流,让非技术用户也能轻松地与复杂系统进行交互。
在 Agent 发展的多样化方向中,GUI Agent 作为一条重要分支,拓展了 Agent 应用的场景和形式。
AgentCPM-GUI 通过高质量的 GUI Grounding 预训练,显著提升了模型对视觉界面元素的理解和定位能力。该模型在大规模中文安卓应用界面数据上进行预训练,覆盖了常见的按钮、输入框、标签、图标等通用 GUI 控件,具备较强的跨任务、跨应用泛化能力。
目前,AgentCPM-GUI 已开源了所有的 Benchmark 代码、数据和技术报告。
➤ 开源仓库:https://github.com/OpenBMB/AgentCPM-GUI
包含 SFT 训练代码、RFT 训练代码、评测脚本、中文 Grounding Benchmark、中文 Agent Benchmark

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
腾讯推出 AI 编程助手 CodeBuddy
腾讯推出全新代码助手CodeBuddy3.0。CodeBuddy 并不是一个独立的集成开发环境(IDE),而是一个可安装在各种开发工具中的插件,方便开发者在不同的编码平台上使用。 https://copilot.tencent.com/ CodeBuddy主要亮点之一是其创新的 Craft 模式。该模式使得 AI 能够自主理解用户需求,并完成多文件的代码生成和改写。用户只需通过简单的自然语言指令,AI 便能自动生成可执行的应用项目。 这意味着开发者不再仅仅依赖对话工具,CodeBuddy 将成为一个具备独立思考和执行能力的编程助手,提升开发灵活性。 在功能方面,CodeBuddy 整合了 DeepSeek R1/V3和 HunYuan-Turbo S 双模型,支持代码补全、项目理解和单元测试等多项智能能力的升级。用户在编码过程中,将获得实时的建议和支持,提高整体的编码效率。
- 下一篇
小米为旗下推理大模型「Xiaomi MiMo」申请商标
天眼查资料显示,近日,小米科技有限责任公司申请注册多枚「XIAOMI MIMO」商标,国际分类为运输工具、科学仪器、通讯服务等,当前商标状态均为等待实质审查。 Xiaomi MiMo 是小米首个推理(Reasoning)大模型,联动预训练到后训练,可全面提升推理能力,于2025年4月30日开源。 据介绍,MiMo 来自全新成立不久的「小米大模型Core团队」的初步尝试。在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。
相关文章
文章评论
共有0条评论来说两句吧...