微软开源 Fara-7B:本地运行的计算机智能助手
微软开源了 Fara-7B,这是一款拥有70亿参数的新型计算机使用智能助手(Computer Use Agent, CUA),旨在直接在用户的设备上执行复杂任务。 Fara-7B 凭借其小巧的体积,成功突破了企业在数据安全性方面的主要障碍,允许用户自动化处理敏感工作流,比如管理内部账户或处理公司机密数据,而这些信息无需离开设备。 Fara-7B 的工作方式是通过视觉方式识别网页,就像人类使用鼠标和键盘一样。该模型通过截屏来感知网页,并预测特定坐标以执行点击、输入和滚动等操作。与其他依赖于 “可访问性树” 的系统不同,Fara-7B 完全依赖像素级的视觉数据,这使得它在面对复杂或混淆的网页代码时依然能够进行有效互动。 在性能测试中,Fara-7B 在 WebVoyager 这一标准基准上实现了73.5% 的任务成功率,超越了资源占用更大的系统,如 GPT-4o(65.1%)和本土的 UI-TARS-1.5-7B(66.4%)。此外,Fara-7B 的效率也很突出,平均仅需约16个步骤就能完成任务,而 UI-TARS-1.5-7B 大约需要41个步骤。 尽管 Fara-7B 的推出令人期待...
