Skyvern - 利用 AI 实现基于浏览器的工作流程自动化
Skyvern 使用 LLM 和计算机视觉实现基于浏览器的工作流程自动化。它提供了一个简单的 API 端点,可完全自动化大量网站上的手动工作流程,从而取代脆弱或不可靠的自动化解决方案。
传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖于 DOM 解析和基于 XPath 的交互,而这些交互会在网站布局发生变化时中断。
Skyvern 不仅仅依赖代码定义的 XPath 交互,还依赖 Vision LLM 来学习和与网站交互。
Skyvern 的灵感来自于BabyAGI和AutoGPT推广的任务驱动自主代理设计——但有一个主要优点:赋予 Skyvern 使用Playwright等浏览器自动化库与网站交互的能力。
Skyvern 使用一群代理来理解网站,并计划和执行其操作:
这种方法有几个优点:
- Skyvern 可以在它从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流所需的操作,而无需任何定制代码
- Skyvern 可以抵抗网站布局的变化,因为我们的系统在尝试导航时没有预先确定的 XPath 或其他选择器
- Skyvern 能够采用单一工作流程并将其应用于大量网站,因为它能够推理完成工作流程所需的交互
- Skyvern 利用 LLM 进行交互推理,确保能够应对复杂的情况。
详细的技术报告可以在这里找到。


