OpenAI 发布首个 AI 智能体
今日凌晨,OpenAI 正式发布其首个 AI 智能体—「Operator」研究预览版。
作为 OpenAI 首款真正模拟人类操作网页浏览器的 AI 助手,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。
目前,OpenAI 已与 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。
技术层面,Operator 采用远程云端浏览器执行任务,无需依赖网站 API。它通过截图识别界面元素,规划后续动作,形成「观察-计划-执行」的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态。
据了解,Computer-Using Agent (CUA)是支撑 Operator 的核心技术,它融合了 GPT-4o 的视觉识别能力和基于强化学习的高级推理功能。CUA 通过训练掌握了与图形用户界面(GUI)交互的能力,能像人类一样操作屏幕上的按钮、菜单和文本框,无需依赖特定的操作系统或网络 API。不过 OpenAI 坦言 CUA 还有许多需要改进的地方,比如目前就没法保证在所有场景下都能稳定运行。
据悉,当用户启用 Operator 时,系统会弹出一个小窗口,展示专用 Web 浏览器的操作界面,并实时说明正在执行的任务。在此期间,允许用户随时接管控制。但 Operator 目前最大的问题还是不够稳定,其在发布会刚开始演示时还算顺利,但中后期的演示过程中遭遇连环「翻车」,甚至未能成功加载相关网页。
The Rundown AI 创始人 Rowan Cheung 提前体验 Operator,并分享了自己的反馈表示,目前 Operator 的系统仍存在限制,包括部分网站会屏蔽 AI 访问,合作伙伴集成有限。同时 Rowan Cheung 指出 Operator 需要特定的使用方法来优化效果,就像 GPT-4 适合 CoT 提示一样,但目前对 Operator 的最佳使用方式研究还很初步。
此前有消息称,Operator 在执行任务时使用的截图内容可能被恶意利用,导致「提示注入攻击」,存在严重的安全隐患。因此,为确保 Operator 的安全使用,OpenAI 通过多层保护措施防止滥用并确保用户牢牢控制 Operator,如系统在浏览器中输入敏感信息(例如登录凭据或支付信息)时要求用户接管。
目前,Operator 将率先向订阅 200 美元 Pro 计划的美国用户开放,随后逐步扩展至 Plus、Team 和 Enterprise 级别用户,API 预计将在数周内推出,用户可通过 operator.chatgpt.com 访问该服务,OpenAI 计划后续将其整合到 ChatGPT。
此外,OpenAI CEO Sam Altman 宣布 ChatGPT 用户不仅将获得 o3-mini 的免费试用机会,Plus 付费订阅会员还将享有更多使用额度。近日,OpenAI 首席产品官 Kevin Weil 还在达沃斯世界经济论坛上表示,公司预计在 2 月或 3 月发布更智能的 GPT-o3 模型。
关于「Operator」的更多技术细节:https://openai.com/index/computer-using-agent/

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
智谱宣布电脑智能体 GLM-PC 开放体验
1 月 23 日,智谱宣布自主操作电脑的多模态 Agent — GLM-PC 开放体验。 据了解,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。 本次 GLM-PC 升级推出「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。新版 GLM-PC 将借鉴人类「左脑」与「右脑」分工,通过代码生成与图形界面理解,实现逻辑推理与感知认知的深度结合。 据悉,GLM-PC 的「左脑」部分负责代码生成与逻辑执行,具有规划、循环执行、长思考能力(动态反思、纠错与优化)等功能;而「右脑」部分负责图像与 GUI 认知,专注于深度感知与交互体验,支持 GUI 图像理解、用户行为认知、图像语义解析等功能。 「左右脑」还支持协作,使 GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。 目前,新版 GLM-PC ...
- 下一篇
架构思考与实践:从通用到场景的转变
在当今复杂多变的商业环境中,企业架构的设计与优化成为了一个关键议题。本文通过一系列随笔,探讨了业务架构的价值、从通用架构到场景架构的转变、恰如其分的架构设计以及如何避免盲目低效等问题。通过对多个实际案例的分析,笔者揭示了架构设计不仅仅是技术问题,更是对企业现状和未来发展的深度理解与把握。本文适合希望深入了解业务架构及其实践意义的读者阅读。 价值理解:(业务)架构的价值 当我们需要了解一个人时,需要“察其言观其行”,不过也难免“误判”。企业的发展与管理,最重要的还是要了解企业自身,知道在做哪些事情,有哪些能力。如果企业都不知道自身的能力和发展情况,那么管理层就容易“纸上谈兵”、“朝令夕改”,或选择“无为而治”。 因为不了解一线情况,就会提出不合时宜、不够长期的个人主张,下面的人也会“晕头转向”,企业长期也可能“原地踏步”。 企业黑盒:盲目,低效 业务架构其实是为了“塑造一面镜子”,让企业看清自己。下面是本人之前梳理的一个整体逻辑图。从顶层的商业模式,到中间的业务能力、业务流程,再到具体的系统实现与资源消耗,是一个抽象层面的认知结构。 业务架构大图 说白了,我们需要一个能够承上启下的模型,...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题