阿里推出多模态深度研究智能体 WebWatcher
阿里巴巴自然语言处理团队宣布推出WebWatcher,这是一个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。 WebWatcher的开发团队指出,尽管现有的闭源系统如OpenAI的DeepResearch在文本深度研究方面表现出色,但它们大多局限于纯文本环境,难以处理现实世界中复杂的图像、图表和混合内容。而现有的开源Agent也面临两大瓶颈:一类是专注于文本检索的Agent,虽然能够整合信息,但无法处理图像;另一类是视觉Agent,虽然能够识别图像,但缺乏跨模态推理和多工具协同能力。WebWatcher正是为了解决这些瓶颈而设计的。 WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,其核心目标是让多模态Agent在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。为此,研究团队设计了一个全自动多模态数据生成流程,通过随机游走收集...
