您现在的位置是：首页 > 文章详情

字节跳动提出 Jeddak AgentArmor 智能体安全框架

日期：2025-08-28点击：81收藏

为了从根源上解决 AI Agent 的安全困境，字节跳动安全研究团队提出了全新的智能体安全框架 Jeddak AgentArmor。它意味着，我们可以将对模糊、善变的“自然语言”的分析，转变为对精确、严谨的“程序语言”的分析。

“AgentArmor 的设计哲学 —— 将 AI Agent 运行时的行为轨迹，视为一段可分析、可验证的结构化程序。”

AgentArmor 设计了三大核心组件：

图构建器 (Graph Constructor) 负责将 AI Agent 运行时线性的行为轨迹实时转换为一个结构化的程序依赖图（Program Dependency Graph），捕获控制流和数据流，让 AI Agent 的“思维链”与“行为链”一目了然。
属性注册表 (Property Registry) 一个丰富的安全元数据库，负责为图中的每一个节点（工具、数据）附加安全属性。对于未知的未知工具、MCP、三方服务等，自动挖掘其数据操作流程，生成对应安全等级。
类型系统 (Type System) 类型即“安全等级”，类型系统将在程序依赖图上自动推导新节点的安全等级，并执行基于安全等级的策略校验，在风险行为发生前精准识别，并给出风险响应建议，如升密、降密、告警、拦截等

在 AI Agent 工作时，AgentArmor 首先借助图构建器，将 AI Agent 运行过程中的执行轨迹迅速且精准地转化为程序依赖图，从而清晰呈现其控制流与数据流。接着，依靠属性注册表进一步完善程序依赖图，不仅详细添加 AI Agent 调用工具的内部数据流细节，还为程序依赖图中的数据节点与行为节点设置初始类型，以此赋予各节点安全属性。最后，通过类型系统全面完善整个图中的类型标签，并严格对程序依赖图开展类型检查，以切实防止任何不安全的操作出现，确保 AI Agent 的运行安全。

AgentArmor 类型系统中囊括了三大类型，满足用户与社会对于 AI Agent 在不同侧面上的安全期待：

信任类型——跨域互操作的信任建立

确保 AI Agent 在与本地服务、云服务、其它多智能体交互时建立恰当的信任关系，能准确判别交互对象的可信度，避免因信任误判引发数据泄露或恶意代码执行等风险。例如，在与基于可信执行环境 (TEE) 的代码执行器交互时可以施加高信任，可共享必要数据；而与身份未知的外部智能体交互时则保持低信任和谨慎态度，如谨慎提供自身敏感信息，不随意执行对方指令。

安全类型——对外部攻击的健壮抵御

使 AI Agent 拥有强大的防御机制，能够有效识别并抵御来自外部的各类攻击，像恶意指令注入、网络渗透等，保障自身系统的安全性与稳定性，维持正常的任务执行流程。例如，如果接收到由外部陌生人邮件触发的 App 转账指令，及时拦截上报，防止资金被盗取。

规则类型——对用户指令的忠实执行

保证 AI Agent 绝对遵循用户下达的指令，不被外部干扰或恶意篡改任务目标，精确且完整地落实用户需求。例如，在电商场景中，如果用户要求购买200元以内的鞋子，则不能购买200元以上的鞋子；或者用户要求整理文档，AI Agent 就不能将其扭曲为删除指定文件。

测试结果表明，在 AI Agent 因遭受攻击而执行风险行为的案例中，AgentArmor 成功拦截比例达93%。与未受保护相比，AgentArmor 将针对 AI Agent 的攻击成功率从28%显著降至4%；特别是在指令覆盖等攻击模式下，攻击成功率降至0%。gentArmor 使 AI Agent 正常完成用户任务的能力从73%轻微降至72%，降幅仅1%。

AgentArmor 受“零信任”架构与理念启发，确保所有对外行为都经过输出验证。通过“运行态执行交互”与“控制态策略决策”双向联动，与 AI Agent 深度集成，在不改变其原有功能架构的前提下构建全流程安全防护体系，核心模块是：

策略执行点 是执行枢纽，将 AI Agent 的不可信行为化为可信。一方面，镜像 AI Agent 的 LLM 调用流量，采集上下文，为策略决策提供输入；另一方面，根据策略决策点结果，允许可信调用通行，阻断或缓解不可信行为。
策略决策点 是智能决策核心，输出安全决策。先通过行为轨迹采集获取 AI Agent 行为信息，经行为表示转化后，结合动态策略生成与行为安全分析，识别风险并响应，进而对行为进行判断，输出策略决策结果给策略执行点。

在 AI Agent 运行时，AgentArmor 的安全工作流是：