阿里推出多模态深度研究智能体 WebWatcher-低调大师

阿里推出多模态深度研究智能体 WebWatcher

2025-08-18 133

阿里巴巴自然语言处理团队宣布推出WebWatcher，这是一个开源的多模态深度研究智能体，旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具，能够像人类研究员一样处理复杂的多模态任务，展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。

WebWatcher的开发团队指出，尽管现有的闭源系统如OpenAI的DeepResearch在文本深度研究方面表现出色，但它们大多局限于纯文本环境，难以处理现实世界中复杂的图像、图表和混合内容。而现有的开源Agent也面临两大瓶颈:一类是专注于文本检索的Agent，虽然能够整合信息，但无法处理图像;另一类是视觉Agent，虽然能够识别图像，但缺乏跨模态推理和多工具协同能力。WebWatcher正是为了解决这些瓶颈而设计的。

WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路，其核心目标是让多模态Agent在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。为此，研究团队设计了一个全自动多模态数据生成流程，通过随机游走收集跨模态知识链，并引入信息模糊化技术，提升任务的不确定性和复杂性。所有复杂问题样本通过QA-to-VQA转换模块扩展为多模态版本，进一步增强了模型的跨模态理解能力。

在高质量推理轨迹构建与后训练方面，WebWatcher采用了Action-Observation驱动的轨迹生成方法，通过收集真实的多工具交互轨迹并进行监督微调（SFT），让模型在训练初期快速掌握多模态ReAct式推理和工具调用的基本模式。随后，模型进入强化学习阶段，通过GRPO进一步提升多模态Agent在复杂环境下的决策能力。

为了全面验证WebWatcher的能力，研究团队提出了BrowseComp-VL，这是BrowseComp在视觉-语言任务上的扩展版本，旨在逼近人类专家的跨模态研究任务难度。在多轮严格评测中，WebWatcher在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上全面领先于当前主流的开源与闭源多模态大模型。

具体来说，在人类终极考试（Humanity’s Last Exam，HLE-VL）这一多步复杂推理基准上，WebWatcher以13.6%的Pass@1分数一举夺魁，大幅领先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等代表性模型。

在更贴近真实多模态搜索的MMSearch评测中，WebWatcher的Pass@1得分高达55.3%，相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先。在LiveVQA评测中，WebWatcher的Pass@1成绩达到58.7%，领先于其他主流模型。在最具综合挑战的BrowseComp-VL基准上，WebWatcher以27.0%的平均得分(Pass@1)遥遥领先，成绩提升超过一倍。

微信关注我们

原文链接：https://www.oschina.net/news/366863

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Akka 2.10.9 发布，Scala 编写的 Actor 模型开发库

Akka 是一个用 Scala 编写的库，能够简化 JVM 上并发和分布式应用的构建。Akka 支持多种并发的编程模型，其灵感来自于 Erlang。Akka 的首个版本于 2009 年发布，距今已有 13 年积极维护的历史。 Akka 2.10.9 现已发布，具体更新内容包括： chore：集群工具 API 文档链接#32769 chore：更新 mima latestPatch 2.10.8#32781 build：在 JDK 24 上包括nightly tests#32779 fix：在某些情况下，ES 记住实体存储会导致Shard crashes#32770 fix：ShardRegionStats 中的 Java 整数#32780 fix：禁用 vt 执行器的批处理#32785 feat：从外部控制速率限制#32775 docs：明确非本地读取将更新 ddata 的本地视图#32764 chore：2.10.9 版本的许可证变更日期和示例更新#32787 更新说明：https://github.com/akka/akka/releases/tag/v2.10.9

2025-08-18

141

我国空间站首次应用专业领域 AI 大模型

据中国载人航天工程办公室消息，北京时间2025年8月15日22时47分，经过约6.5小时的出舱活动，神舟二十号乘组航天员陈冬、陈中瑞、王杰密切协同，在空间站机械臂和地面科研人员的配合支持下，圆满完成既定任务，出舱航天员陈冬、王杰已安全返回问天实验舱，出舱活动取得圆满成功。与以往不同的是，此次神二十乘组在开展工作时有了一个新的助手，就是由天舟九号货运飞船搭载上行的“悟空AI”大模型。在神二十乘组第三次出舱活动的准备工作中，“悟空AI”大模型就发挥了辅助支撑作用，同时它还为航天员在轨工作提供了智能化、专业化的支持。 “悟空AI”基于国内开源模型开发，结合载人航天飞行任务需求，采用预训练和指令微调技术，构建了专业领域大语言模型和以航天飞行知识规范为核心的知识库。中国航天员科研训练中心邹鹏飞：航天员根据他的需要去询问“悟空AI”，比如说今天有哪些工作，在工作过程中可能有哪些操作的指南性质的、说明性质的知识。大模型技术在我国空间站首次应用验证，构建了天地协同的智能问答支持系统，通过地面和在轨两个模型，分别提供专业知识深度解析能力和解决重难点问题。中国航天员科研训练中心邹鹏飞：“悟空A...

2025-08-18

111

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

JDK

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。