您现在的位置是:首页 > 文章详情

OpenAI 发布首个 AI 智能体

日期:2025-01-24点击:89

今日凌晨,OpenAI 正式发布其首个 AI 智能体—「Operator」研究预览版。

作为 OpenAI 首款真正模拟人类操作网页浏览器的 AI 助手,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。

目前,OpenAI 已与 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。

技术层面,Operator 采用远程云端浏览器执行任务,无需依赖网站 API。它通过截图识别界面元素,规划后续动作,形成「观察-计划-执行」的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态

据了解,Computer-Using Agent (CUA)是支撑 Operator 的核心技术,它融合了 GPT-4o 的视觉识别能力和基于强化学习的高级推理功能。CUA 通过训练掌握了与图形用户界面(GUI)交互的能力,能像人类一样操作屏幕上的按钮、菜单和文本框,无需依赖特定的操作系统或网络 API。不过 OpenAI 坦言 CUA 还有许多需要改进的地方,比如目前就没法保证在所有场景下都能稳定运行。

据悉,当用户启用 Operator 时,系统会弹出一个小窗口,展示专用 Web 浏览器的操作界面,并实时说明正在执行的任务。在此期间,允许用户随时接管控制。但 Operator 目前最大的问题还是不够稳定,其在发布会刚开始演示时还算顺利,但中后期的演示过程中遭遇连环「翻车」,甚至未能成功加载相关网页。

The Rundown AI 创始人 Rowan Cheung 提前体验 Operator,并分享了自己的反馈表示,目前 Operator 的系统仍存在限制,包括部分网站会屏蔽 AI 访问,合作伙伴集成有限。同时 Rowan Cheung 指出 Operator 需要特定的使用方法来优化效果,就像 GPT-4 适合 CoT 提示一样,但目前对 Operator 的最佳使用方式研究还很初步。

此前有消息称,Operator 在执行任务时使用的截图内容可能被恶意利用,导致「提示注入攻击」,存在严重的安全隐患。因此,为确保 Operator 的安全使用,OpenAI 通过多层保护措施防止滥用并确保用户牢牢控制 Operator,如系统在浏览器中输入敏感信息(例如登录凭据或支付信息)时要求用户接管。

目前,Operator 将率先向订阅 200 美元 Pro 计划的美国用户开放,随后逐步扩展至 Plus、Team 和 Enterprise 级别用户,API 预计将在数周内推出,用户可通过 operator.chatgpt.com 访问该服务,OpenAI 计划后续将其整合到 ChatGPT。

此外,OpenAI CEO Sam Altman 宣布 ChatGPT 用户不仅将获得 o3-mini 的免费试用机会,Plus 付费订阅会员还将享有更多使用额度。近日,OpenAI 首席产品官 Kevin Weil 还在达沃斯世界经济论坛上表示,公司预计在 2 月或 3 月发布更智能的 GPT-o3 模型。


关于「Operator」的更多技术细节:https://openai.com/index/computer-using-agent/

原文链接:https://www.oschina.net/news/331290/openai-operator
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章