字节跳动旗下开源多模态智能体 Agent TARS 发布 Beta 版本
字节跳动正式发布了Agent TARS的 Beta 版本,将其定位为一个开源的多模态AI Agent工具,旨在提供与各种现实世界工具的无缝集成能力,并实现“随时随地可用”。 Agent TARS的早期预览版已于三月份开源。此次 Beta 版本的发布得益于Seed多模态模型(如UI-TARS 1.5和Doubao 1.5 VL)的逐步增强,并解决了早期架构中Agent UI未解耦等挑战。 新版本引入了全新的多层分层架构,其核心构建在一个基于事件流驱动的Agent Kernel上。Agent TARS的设计原则包括: 上下文工程 (Context Engineering):为构建长时间运行的 Agent,新版本对 Agent Loop 的内存进行了动态优化,针对不同模态内容采用不同的滑动窗口,并面向上下文窗口进行优化和计算,以解决上下文溢出问题。 MCP (多模态通信协议) 的洞察:Agent TARS 团队认为 MCP 应作为标准化的工具分发协议,而非自由拓展工具的方式,并计划建立 MCP 工具的基准测试,以评估其模型兼容性、上下文压缩率和性能等。 上下文压缩 (Context Comp...