港大联手月之暗面等机构开源 OpenCUA,可自主操作电脑的 Agent
香港大学 XLANG Lab 联合月之暗面、斯坦福大学等机构,正式开源了一个名为 OpenCUA 的完整框架,旨在帮助开发者低门槛地构建和扩展 CUA(Computer-Use Agent,计算机使用智能体)。
该框架包括:
- 无缝捕获人类计算机使用演示的注释基础设施
- 第一个跨越 3 个操作系统以及超 200 个应用程序和网站的大规模计算机使用任务数据集 AgentNet
- 一个可扩展的、能将演示转换为具有反思性长思维链推理 “状态 - 动作” 对的工作流程。
香港大学计算机科学系助理教授 Tao Yu(余涛)为项目负责人,月之暗面、斯坦福大学、滑铁卢大学、卡内基梅隆大学的研究人员参与,月之暗面创始人、CEO 杨植麟在作者名单之列。
据介绍,OpenCUA 通过开源完整的数据、工具和模型,让 “人人都能打造自己的专属电脑智能体”,并已在关键基准上超越 GPT-4o,成为当前最强的开源 CUA 方案。
相关链接
- 论文地址:https://arxiv.org/pdf/2508.09123
- OpenCUA主页(工具、模型、数据集):https://opencua.xlang.ai
- Hugging Face地址:https://huggingface.co/collections/xlangai/opencua-open-foundations-for-computer-use-agents-6882014ebecdbbe46074a68d

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集
英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集,以支持OCR、VQA和图像字幕生成等多种应用。 数据集构成 67.0% 视觉问答(VQA)样本 28.4% OCR 样本 4.6% 图像描述(Captioning)样本 主要用途 文档理解:支持复杂版面、表格、图文混排的 OCR 与内容提取。 企业级 AI 开发:数据已清除版权限制,可直接商用。 模型训练支持:配套 NVIDIA NeMo Curator 工具,便于进一步清洗和定制。 数据来源与构建方式 基于开源数据集重新标注,确保可商用; 使用 NVIDIA 自研模型进行增强,如加入链式思考(Chain-of-Thought)解释、模板化问答生成、答案扩展等; 提供中英双语的 OCR 数据,涵盖字符级、词级、页面级标注。 模型配套 该数据集是 Llama 3.1 Nemotron Nano VL 8B 模型的训练基础,该模型在 OCRBench V2、DocVQA、ChartQA 等基准测试中表现领先,已作为 NVIDIA NIM API 和 Hugging Face 模型库的一部分开放使用。 如需获取数据集,可直接访问...
- 下一篇
马斯克必须面对 OpenAI 提出的骚扰指控
OpenAI 此前在诉状中指称,埃隆·马斯克(Elon Musk)在法庭内外对公司展开了“长达数年的骚扰行动”。一名联邦法官已裁定,马斯克必须面对这一指控。 当地时间本周二,美国地方法院法官伊冯·冈萨雷斯·罗杰斯(Yvonne Gonzalez Rogers)驳回了马斯克的一项请求。OpenAI指控马斯克利用法律诉讼、社交媒体发文及媒体言论等手段意图打压公司,从而为他自己创办的生成式人工智能公司xAI争取竞争优势,而马斯克请求法官驳回的正是这些指控。 此项裁决为双方始于去年的法律战带来了最新转折。当时,马斯克指控OpenAI背弃非营利组织的创立初衷,2019年也就是马斯克离开OpenAI董事会的次年,开始从微软接受数十亿美元的投资。马斯克本人则在2023年创立了xAI公司。 罗杰斯法官并未就OpenAI反诉状中“马斯克试图持续打压公司”的指控本身作出实质性评判,但她裁定,OpenAI于今年4月份提交的反诉在法律上理由充分,可以继续推进。此外,罗杰斯法官还驳回了马斯克针对OpenAI和微软的部分指控。 法官指出,双方都互相指责对方虚伪。她在裁决书中写道:“双方的博弈伎俩昭然若揭,各自都出...
相关文章
文章评论
共有0条评论来说两句吧...