智谱宣布电脑智能体 GLM-PC 开放体验
1 月 23 日,智谱宣布自主操作电脑的多模态 Agent — GLM-PC 开放体验。
据了解,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。
本次 GLM-PC 升级推出「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。新版 GLM-PC 将借鉴人类「左脑」与「右脑」分工,通过代码生成与图形界面理解,实现逻辑推理与感知认知的深度结合。
据悉,GLM-PC 的「左脑」部分负责代码生成与逻辑执行,具有规划、循环执行、长思考能力(动态反思、纠错与优化)等功能;而「右脑」部分负责图像与 GUI 认知,专注于深度感知与交互体验,支持 GUI 图像理解、用户行为认知、图像语义解析等功能。
「左右脑」还支持协作,使 GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。
目前,新版 GLM-PC 已上线其官网并支持下载体验,本次更新智谱还提供了对 Windows 系统的支持。此外,为促进预训练 GUI Agent 的研究,智谱于 2024 年 12 月开源了全面提升后的模型 CogAgent-9B-20241220。
CogAgent-9B-20241220:
论文:Hong et al. "Cogagent: A visual language model for gui agents." (CVPR 2024 Highlight 🏆)
博客:https://cogagent.aminer.cn/blog#/articles/cogagent-9b-20241220-technical-report
Huggingface:https://huggingface.co/THUDM/cogagent-9b-20241220

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
腾讯客服确认微信 iOS 版并未使用 Callkit
近日,iOS 版微信近期更新最新版本后,开始大规模灰度测试「语音通话使用弹窗快捷接听」功能,随后「微信支持 Callkit」相关话题被顶上热搜。 但近日,开发者 Netskao 通过逆向工程发现,微信并非使用 Callkit 来实现上述功能,而是使用了 iOS17.4 以后加入的 LiveCommunicationKit 接口实现。 此后,根据腾讯客服确认,「语音通话使用弹窗快捷接听」功能调用了 LiveCommunicationKit 接口,从而来实现「语音弹窗」。 据了解,Callkit 是苹果在 iOS10 中推出的一项功能,它能够让用户在使用第三方应用的语音聊天功能时,直接看到来电画面,并且语音聊天记录会记录到通话记录中。2018 年,微信曾引入 Callkit 功能,但后期微信关闭了大陆地区用户的 Callkit 功能。 而本次的 LiveCommunicationKit 是苹果在 iOS17.4 版本引入的新功能,该功能同样为开发者提供了 VoIP 通话的交互接口,并且和 CallKit 一样,支持将应用程序设置为系统默认通话应用。但与 Callkit 有所不同的是,Liv...
- 下一篇
OpenAI 发布首个 AI 智能体
今日凌晨,OpenAI 正式发布其首个 AI 智能体—「Operator」研究预览版。 作为 OpenAI 首款真正模拟人类操作网页浏览器的 AI 助手,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。 目前,OpenAI 已与 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。 技术层面,Operator 采用远程云端浏览器执行任务,无需依赖网站 API。它通过截图识别界面元素,规划后续动作,形成「观察-计划-执行」的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态。 据了解,Computer-Using Agent (CUA)是支撑 Operator 的核心技术,它融合了 GPT-4o 的视觉识别能力和基于强化学习的高级推理功能。CUA 通过训练掌握了与图形用户界面(GUI)交互的能力,能像人类一样操作屏幕上的按钮、菜单和文本框,无需依赖特定的操作系统或网络 API。不过 OpenAI 坦言 CUA 还有...
相关文章
文章评论
共有0条评论来说两句吧...