字节跳动旗下开源多模态智能体 Agent TARS 发布 Beta 版本
字节跳动正式发布了 Agent TARS 的 Beta 版本,将其定位为一个开源的多模态 AI Agent 工具,旨在提供与各种现实世界工具的无缝集成能力,并实现“随时随地可用”。
Agent TARS 的早期预览版已于三月份开源。此次 Beta 版本的发布得益于 Seed 多模态模型(如 UI-TARS 1.5 和 Doubao 1.5 VL)的逐步增强,并解决了早期架构中 Agent UI 未解耦等挑战。
新版本引入了全新的多层分层架构,其核心构建在一个基于事件流驱动的 Agent Kernel 上。Agent TARS 的设计原则包括:
- 上下文工程 (Context Engineering):为构建长时间运行的 Agent,新版本对 Agent Loop 的内存进行了动态优化,针对不同模态内容采用不同的滑动窗口,并面向上下文窗口进行优化和计算,以解决上下文溢出问题。
- MCP (多模态通信协议) 的洞察:Agent TARS 团队认为 MCP 应作为标准化的工具分发协议,而非自由拓展工具的方式,并计划建立 MCP 工具的基准测试,以评估其模型兼容性、上下文压缩率和性能等。
- 上下文压缩 (Context Compress):正在推动多级内存设计(L0 永久记忆、L1 会话记忆、L2 循环记忆、L3 临时记忆),并结合选择性上下文和 LLM/SLM 摘要等策略进行压缩。
- 可观测与可评估 (Observable and Evaluable):引入了 Snapshot 框架,能够在运行时将 Agent 依赖的环境保存为快照,用于回放和调试,已驱动持续集成和测试。同时,通过 Agent 与 UI 分层的新架构,实现了 Headless 运行模式,使得自动化评测成为可能,并参考 OpenAI 的 simple-evals 实现了 browsecomp 评测方案。
- 易于构建应用 (Easy to build applications):引入了 Agent Event Stream,将 Agent 的状态、工具调用细节、最终回复和环境信息等以流式方式输出,使得用户可以轻松构建自定义 Agent UI。Agent TARS Server 与 Web UI 的架构设计也因此变得简洁。
同时,Agent TARS 关注并学习了 AG-UI 协议,并说明了 Agent Event Stream 在构建上下文方面的差异化优势。
新版本的主要特性包括:
-
Agent TARS CLI:取代了
Electron
应用,具有更容易更新迭代和显著减小的安装体积优势。 -
混合浏览器 GUI Agent:结合了基于
DOM
分析的Browser Use
和基于UI-TARS
/Doubao 1.5 VL
的视觉控制方案,操作逻辑更接近人类理解屏幕的方式。提供了dom
、visual-grounding
和hybrid
三种操作方案。 -
更好的跨模型兼容性:完全重写了
Model Provider
层,现在支持Volcengine (Seed1.5-VL)
、Anthropic (Claude-3.7-Sonnet)
和OpenAI (GPT-4o)
等模型提供商。 -
原生流式传输 (Native Streaming):整个架构构建在流式传输之上,显著提升了复杂任务的交互体验。
-
Web UI:得益于
Agent Event Stream
,Web UI
可以完全独立开发,支持GUI Grounding Transition
(实时鼠标追踪)、Replay
保存与分享,并实现了通用的多模态内容渲染器。
Agent TARS 团队还展示了多项内部开发者示例,包括 UI 复刻、先写游戏再玩游戏,以及图文并茂的报告生成等,这些都得益于模型能力和上下文工程的提升。Agent TARS 仍在快速发展中,未来将推出带有动态规划推理的版本,并致力于成为随时随地可用的 Agent 开发者工具。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
VTJ.PRO 的 AI+低代码设计器和渲染器技术架构和实现原理
本文介绍支持 VTJ.PRO 低代码体验的可视化设计环境 (@vtj/designer) 和运行时渲染系统 (@vtj/renderer)。Designer 提供了交互式可视化编辑环境,用户可以在其中拖放和配置组件,而 Renderer 在设计时预览和运行时环境中执行生成的 DSL 架构。 有关这些系统运行的核心引擎和数据模型的信息,请参阅引擎、提供程序和服务层 。有关提供实际小组件的 UI 组件库的详细信息,请参阅 UI 组件库 。 Designer 架构 Designer 系统通过以 Designer 类及其与仿真环境的集成为中心的复杂事件驱动架构提供交互式可视化编辑功能。 Core Designer 类 Designer 类充当所有设计时交互的中心编排器,管理鼠标事件、拖放作、元素选择和视觉反馈系统。 Designer 通过对具有特殊属性 (__vtj__、__context__) 的 DOM 元素进行检测来运行,这些属性使其能够在可视元素及其相应的数据模型之间进行映射。 事件处理系统 Designer 实现了一个全面的事件处理系统,该系统可以捕获用户交互并将其转换为设计作...
- 下一篇
MariaDB 12.1 预览版发布
MariaDB 12.1系列现已推出预览版。新版本引入了许多新功能,一些亮点如下: 性能改进 Aria 的分段密钥缓存(MDEV-24) MDL 可扩展性改进(MDEV-19749) Galera replicas 的并行复制(MDEV-20065) 审计插件的缓冲日志记录(MDEV-34680) 通过外推法更快地计算向量距离(MDEV-36205) 兼容性功能 caching_sha2_password 插件(MDEV-9804) ( + )用于外连接语法(MDEV-13817) rpl_semi_sync_master_wait_for_slave_count (MDEV-18983) 关联数组:DECLARE TYPE..TABLE OF..INDEX BY(MDEV-34319) 如果用户有活动会话,则 DROP USER 失败(MDEV-35617) Optimizer hints:[NO_]JOIN_INDEX、[NO_]GROUP_INDEX、[NO_]ORDER_INDEX、[NO_]INDEX(MDEV-35856) Optimizer hints:[NO_]SPLI...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS关闭SELinux安全模块
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7,CentOS8安装Elasticsearch6.8.6