UFO² —— 桌面 AgentOS
UFO 现已升级为UFO²(Desktop AgentOS),这是可在 Windows 桌面操作系统上运行的新一代代理框架。它旨在跨多个应用程序自动化和协调任务,使用户能够使用自然语言命令与其操作系统无缝交互,而不仅仅是UI 自动化。
关键功能
特性 | 描述 |
---|---|
Deep OS 集成 | 结合 Windows UIA、Win32 和 WinCOM,实现一流的控制检测和本机命令。 |
画中画桌面 (即将推出) | 自动化在沙盒虚拟桌面中运行,因此您可以继续使用主屏幕。 |
Hybrid GUI + API Actions | 在可用时选择本机 API,在不可用时则回退到点击/击键——快速且强大。 |
Speculative Multi‑Action | 将几个预测步骤捆绑到一次 LLM 调用中,并进行实时验证——查询量减少高达 51%。 |
Continuous Knowledge Substrate | 通过 RAG 混合文档、Bing 搜索、用户演示和执行跟踪,供代理随着时间推移进行学习。 |
UIA+视觉控制检测 | 使用混合 UIA + 视觉管道检测标准和自定义控件。 |
架构概述
UFO² 作为桌面代理操作系统运行,包含一个多代理框架,其中包括:
- HostAgent — 解析自然语言目标,启动必要的应用程序,启动/协调 AppAgents,并引导全局有限状态机 (FSM)。
- AppAgents — 每个应用程序一个;每个运行一个 ReAct 循环,具有多模式感知、混合控制检测、检索增强知识以及在 GUI 操作和本机 API 之间进行选择的Puppeteer执行器。
- 知识基础 — 将离线文档、在线搜索、演示和执行跟踪融合到可在推理时动态检索的矢量存储中。
- 推测执行器 — 通过预测批量可能的操作并一次性根据实时 UIA 状态进行验证,大幅减少 LLM 延迟。
- 画中画桌面 (即将推出)— 在独立的虚拟桌面中运行代理,这样您的主工作区和输入设备就不会受到影响。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
谷歌搜索「AI 模式」可提供数据可视化和自定义图表支持
谷歌搜索「AI 模式」现在可以提供数据可视化和自定义图表支持,让用户能用自然语言提示分析复杂数据集和创建自定义图表。 据介绍,更新后的「AI 模式」能比较分析特定时期的信息,生成交互式图表并提供全面解释,借助 Gemini 多模式功能和多步骤推理方法理解问题意图,访问相关历史和实时信息,还能在图表生成后选择时间段提后续问题。 例如,您无需手动研究单个公司及其股价,而是可以使用 AI 模式比较特定年份不同公司的股票表现。图表生成后,您可以使用鼠标光标选择所需的时间段,并根据呈现的数据提出后续问题。这些用于财务查询的新数据可视化可供在实验室中启用 AI 模式实验的用户使用。 5 月 20 日,谷歌在 I/O 大会上正式宣布谷歌搜索「AI Mode」(AI 模式)面向美国市场全面上线。 AI Mode 是 Google 搜索中的一个新选项卡,允许用户使用 Gemini AI 聊天机器人进行网络搜索,支持自然语言多轮对话式搜索。 AI Mode 基于 Gemini 2.5 打造,利用 "query fan-out" 技术将用户问题分解为更小的部分,同时在多样化来源中启动搜索,组装详细答案并提供...
- 下一篇
智源研究院推出 Emu3 等“悟界”系列大模型
继“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型。其中包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。 其中,Emu3 旨在让机器更好地理解和感知世界,通过整合不同类型的数据,如视觉、听觉和触觉等,为未来的智能应用提供更为丰富的基础。Brainμ 基于Emu3架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。 RoboOS 2.0与RoboBrain 2.0在初代版本基础上,原有性能大幅提升,并新增多机协作规划与物理常识驱动的空间推理能力。OpenComplex2可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。 根据介绍,Emu3基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。 E...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案