您现在的位置是：首页 > 文章详情

OpenAI 发布首个 AI 智能体

日期：2025-01-24点击：115收藏

今日凌晨，OpenAI 正式发布其首个 AI 智能体—「Operator」研究预览版。

作为 OpenAI 首款真正模拟人类操作网页浏览器的 AI 助手，Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务，涵盖购物、配送、餐饮和旅行等领域。

目前，OpenAI 已与 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。

技术层面，Operator 采用远程云端浏览器执行任务，无需依赖网站 API。它通过截图识别界面元素，规划后续动作，形成「观察-计划-执行」的闭环，直至完成任务。系统支持多任务并行处理，运行效率高，且能保持登录状态。

据了解，Computer-Using Agent （CUA）是支撑 Operator 的核心技术，它融合了 GPT-4o 的视觉识别能力和基于强化学习的高级推理功能。CUA 通过训练掌握了与图形用户界面（GUI）交互的能力，能像人类一样操作屏幕上的按钮、菜单和文本框，无需依赖特定的操作系统或网络 API。不过 OpenAI 坦言 CUA 还有许多需要改进的地方，比如目前就没法保证在所有场景下都能稳定运行。

据悉，当用户启用 Operator 时，系统会弹出一个小窗口，展示专用 Web 浏览器的操作界面，并实时说明正在执行的任务。在此期间，允许用户随时接管控制。但 Operator 目前最大的问题还是不够稳定，其在发布会刚开始演示时还算顺利，但中后期的演示过程中遭遇连环「翻车」，甚至未能成功加载相关网页。

The Rundown AI 创始人 Rowan Cheung 提前体验 Operator，并分享了自己的反馈表示，目前 Operator 的系统仍存在限制，包括部分网站会屏蔽 AI 访问，合作伙伴集成有限。同时 Rowan Cheung 指出 Operator 需要特定的使用方法来优化效果，就像 GPT-4 适合 CoT 提示一样，但目前对 Operator 的最佳使用方式研究还很初步。

此前有消息称，Operator 在执行任务时使用的截图内容可能被恶意利用，导致「提示注入攻击」，存在严重的安全隐患。因此，为确保 Operator 的安全使用，OpenAI 通过多层保护措施防止滥用并确保用户牢牢控制 Operator，如系统在浏览器中输入敏感信息（例如登录凭据或支付信息）时要求用户接管。

目前，Operator 将率先向订阅 200 美元 Pro 计划的美国用户开放，随后逐步扩展至 Plus、Team 和 Enterprise 级别用户，API 预计将在数周内推出，用户可通过 operator.chatgpt.com 访问该服务，OpenAI 计划后续将其整合到 ChatGPT。

此外，OpenAI CEO Sam Altman 宣布 ChatGPT 用户不仅将获得 o3-mini 的免费试用机会，Plus 付费订阅会员还将享有更多使用额度。近日，OpenAI 首席产品官 Kevin Weil 还在达沃斯世界经济论坛上表示，公司预计在 2 月或 3 月发布更智能的 GPT-o3 模型。

关于「Operator」的更多技术细节：https://openai.com/index/computer-using-agent/

原文链接：https://www.oschina.net/news/331290/openai-operator

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。