您现在的位置是:首页 > 文章详情

字节跳动旗下开源多模态智能体 Agent TARS 发布 Beta 版本

日期:2025-06-27点击:11

字节跳动正式发布了 Agent TARS 的 Beta 版本,将其定位为一个开源的多模态 AI Agent 工具,旨在提供与各种现实世界工具的无缝集成能力,并实现“随时随地可用”。

Agent TARS 的早期预览版已于三月份开源。此次 Beta 版本的发布得益于 Seed 多模态模型(如 UI-TARS 1.5 和 Doubao 1.5 VL)的逐步增强,并解决了早期架构中 Agent UI 未解耦等挑战。

新版本引入了全新的多层分层架构,其核心构建在一个基于事件流驱动的 Agent Kernel 上。Agent TARS 的设计原则包括:

  • 上下文工程 (Context Engineering):为构建长时间运行的 Agent,新版本对 Agent Loop 的内存进行了动态优化,针对不同模态内容采用不同的滑动窗口,并面向上下文窗口进行优化和计算,以解决上下文溢出问题。
  • MCP (多模态通信协议) 的洞察:Agent TARS 团队认为 MCP 应作为标准化的工具分发协议,而非自由拓展工具的方式,并计划建立 MCP 工具的基准测试,以评估其模型兼容性、上下文压缩率和性能等。
  • 上下文压缩 (Context Compress):正在推动多级内存设计(L0 永久记忆、L1 会话记忆、L2 循环记忆、L3 临时记忆),并结合选择性上下文和 LLM/SLM 摘要等策略进行压缩。
  • 可观测与可评估 (Observable and Evaluable):引入了 Snapshot 框架,能够在运行时将 Agent 依赖的环境保存为快照,用于回放和调试,已驱动持续集成和测试。同时,通过 Agent 与 UI 分层的新架构,实现了 Headless 运行模式,使得自动化评测成为可能,并参考 OpenAI 的 simple-evals 实现了 browsecomp 评测方案。
  • 易于构建应用 (Easy to build applications):引入了 Agent Event Stream,将 Agent 的状态、工具调用细节、最终回复和环境信息等以流式方式输出,使得用户可以轻松构建自定义 Agent UI。Agent TARS Server 与 Web UI 的架构设计也因此变得简洁。

同时,Agent TARS 关注并学习了 AG-UI 协议,并说明了 Agent Event Stream 在构建上下文方面的差异化优势。

新版本的主要特性包括:

  • Agent TARS CLI:取代了 Electron 应用,具有更容易更新迭代和显著减小的安装体积优势。

  • 混合浏览器 GUI Agent:结合了基于 DOM 分析的 Browser Use 和基于 UI-TARS/Doubao 1.5 VL 的视觉控制方案,操作逻辑更接近人类理解屏幕的方式。提供了 domvisual-grounding 和 hybrid 三种操作方案。

  • 更好的跨模型兼容性:完全重写了 Model Provider 层,现在支持 Volcengine (Seed1.5-VL)Anthropic (Claude-3.7-Sonnet) 和 OpenAI (GPT-4o) 等模型提供商。

  • 原生流式传输 (Native Streaming):整个架构构建在流式传输之上,显著提升了复杂任务的交互体验。

  • Web UI:得益于 Agent Event StreamWeb UI 可以完全独立开发,支持 GUI Grounding Transition(实时鼠标追踪)、Replay 保存与分享,并实现了通用的多模态内容渲染器。

Agent TARS 团队还展示了多项内部开发者示例,包括 UI 复刻、先写游戏再玩游戏,以及图文并茂的报告生成等,这些都得益于模型能力和上下文工程的提升。Agent TARS 仍在快速发展中,未来将推出带有动态规划推理的版本,并致力于成为随时随地可用的 Agent 开发者工具。

原文链接:https://www.oschina.net/news/357518/agent-tars-beta
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章