智谱发布 AutoGLM 2.0:全球首个手机 Agent、云端自主完成任务
智谱宣布推出 AutoGLM 2.0,声称将 Agent 应用提升到新的高度:
- 全球首个手机 Agent,人人可用;
- 开创 Agent + 云手机 / 云电脑的新技术范式,不抢占用户手机和电脑;
- 突破硬件限制,在任何设备、任何场景下运行,帮助用户代理操作;
- 国产模型(GLM-4.5、GLM-4.5V)驱动,具备推理、代码与多模态的全能能力。
智谱称,即刻起,人人都可使用 AutoGLM。该公司还将快速迭代推出新功能(“定时任务” 很快上线,AI 每天主动替你干活)。
在 AutoGLM 1.0 中,智谱已探索过让 AI 代替用户完成部分手机操作,但只在有限场景下生效。
据介绍,随着 AutoGLM 2.0 的发布,它已经成长为一名执行型助手,能够在「云端」自主完成多样化的任务。在生活场景中,用户只需一句话,就能让 AutoGLM 操作美团、京东、小红书、抖音等几十个高频应用:点外卖、订机票、查房源,例如帮你买「秋天的第一杯奶茶」。在办公场景中,它同样能跨网站执行全流程工作,操作网页版的飞书、网易邮箱、知乎、微博、抖音、微头条等网站:从信息检索到内容撰写,再到生成视频、PPT 或播客,并直接完成小红书、抖音等社交媒体平台内容发布。
智谱称,“这意味着,AI 不再是一个 “聊天工具”,而是一个能真正替你干活的全能代理人。不仅能给出答案,还能把任务完整执行,帮助用户节省时间与精力,彻底改变人与 AI 的协作方式。”
在 AutoGLM 2.0 中,智谱为 AI 配备了专属智能体手机 / 智能体电脑,让它可以在云端自主干活、完成任务,而无需占用用户的本地设备,期间用户可以使用其他 App(如刷抖音、打游戏)。
据介绍,AutoGLM 由智谱最新开源 SOTA 语言模型 GLM-4.5 与视觉推理模型 GLM-4.5V 驱动。AutoGLM 将基座模型原生能力发挥到极致,并结合在「端到端异步强化学习」方面的多项突破成果,可以完成推理、编码、研究、Agentic 与 GUI 操作等多类任务,并可根据需求灵活调用最合适的「大脑」完成执行。
- ComputerRL:提出 API-GUI 协同范式,提升数据多样性与计算效率;改进 GRPO 并提出 Entropulse 机制,增强探索与策略多样性。
- MobileRL:创新难度自适应强化学习方法(推理自举预热 + 难度自适应 GRPO),显著提升移动端任务的稳定性与收敛效率。
- AgentRL:通过交叉采样与任务优势归一化机制,解决多任务训练中的不稳定与梯度分布不均,增强整体鲁棒性与效率。
在Device Use 基准测试(涵盖手机、电脑和网页操作)中,AutoGLM 表现优于ChatGPT Agent、UI-TARS-1.5 和 Claude Sonnet 4,展现出更强的鲁棒性与通用性,处于主流 Agent 的SOTA水平。
智谱称,已将 AutoGLM 的操作执行能力封装为 API,开发者只需简单接入,即可将这一能力无缝融入各类硬件设备,从 AI 眼镜等可穿戴设备到传统家电。AutoGLM 首次让硬件具备完整的手机级操作能力,无需在端侧堆叠复杂系统或大容量电池。例如,可以通过智能眼镜点一杯咖啡。
今日起,AutoGLM 移动端 API 申请通道及开发者生态共建计划正式上线。除手机与电脑外,手表、眼镜、家电等设备都能成为 Agent 驱动的智能助手。
传送门:https://autoglm.zhipuai.cn/misc/developer-apply
更多技术细节,请参阅GLM团队的三篇最新技术论文:
ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents
https://arxiv.org/abs/2508.14040
MobileRL: Advancing Mobile Use Agents With Adaptive Online Reinforcement Learning
https://github.com/Xiao9905/AutoGLM/blob/main/static/papers/mobilerl_0820.pdf
AgentRL: Reinforcing Multi-task LLM Agents From Zero (Upcoming)

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
金山等软件被常用工具弹窗推广,流氓行为传播数十万终端
火绒安全发布报告称,近日收到多位用户反馈称在安装某些工具类软件时遭遇广告弹窗及其他流氓行为。 对捕获的样本进行分析发现,该样本主要通过捆绑在Zip解压缩、PDF转换器及录屏软件等常用工具的安装包中进行传播,会执行包括静默推广安装金山毒霸、WPS、CAD看图王等软件在内的一系列流氓行为,并最终伪装成插件进行集成和大规模传播。流氓行为已传播数十万终端。 根据火绒威胁情报系统监测,该样本已感染超过数万台电脑,传播范围波及数十类网站,包括 Zip 解压缩、录屏、PDF转换器、壁纸、DLL 修复、全能格式转换、OCR 扫描等多种类型。 样本流程图如下: 该样本采用 C# 开发,初始版本为一个简单的下载器(Loader),主要功能是从阿里云存储桶中获取安装包,并通过命令行实现静默安装压缩包的功能。 样本的主要逻辑为:通过代码伪造安装界面,包括构造所需数据、下载配置文件、获取云端配置信息,并完成UI 设置;随后,通过用户点击按钮的操作触发静默安装。 对网站 https://zip.njzhqlkj.cn 进行溯源分析发现,其 JS 脚本被多个域名引用。进一步分析表明,这些域名中有相当一部分在下载的程...
-
下一篇
字节跳动即将发布“世界模型”
根据 The Information 的报道,字节跳动正在筹备自己的“世界模型”(world model),以追随谷歌和 Meta 的步伐。 该项目由字节跳动的“Seed”人工智能研发部门主导,项目负责人是前阿里通义千问(Qwen)核心高管周畅。字节跳动在视频生成领域的积累——尤其是旗下抖音和 TikTok 的海量视频数据,以及近期开源的 EX-4D 框架(可将单目视频转化为4D多视角场景)——为其构建世界模型提供了技术基础和训练资源。 “世界模型”旨在模拟真实环境的物理规律和人类互动方式,未来可用于训练机器人、自动驾驶系统或构建虚拟世界,被视为通向通用人工智能(AGI)的重要路径之一。 近期,谷歌和 Meta 都分别推出了自家新款世界模型——Genie 3 和 V-JEPA 2。世界模型能模拟出真实的环境,旨在获得与真实世界相似的物体运动以及人类与周围环境互动的物理方式,从而用于训练机器人和自动驾驶模型。 相关阅读 谷歌发布世界模型 Genie 3 Meta 发布开源世界模型 V-JEPA 2
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- MySQL数据库在高并发下的优化方案