您现在的位置是:首页 > 文章详情

Meta 开源 LlamaFirewall,面向 AI 智能体的安全框架

日期:2025-05-09点击:27

Meta 开源了名为 LlamaFirewall 的安全框架,用于应对 AI 智能体不断演变的威胁格局,为生产环境中的 AI 智能体提供系统级安全保护

https://meta-llama.github.io/PurpleLlama/LlamaFirewall/

随着大型语言模型(LLMs)嵌入 AI 智能体并被广泛应用于高权限场景,安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API,一旦被恶意利用,后果不堪设想。

传统的安全机制,如聊天机器人内容审核或硬编码模型限制,已无法满足具备广泛能力的 AI 智能体需求。Meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战,开发了 LlamaFirewall。

LlamaFirewall 采用分层框架,包含三个专门的防护模块:

  • PromptGuard 2 是一个基于 BERT 架构的分类器,能实时检测越狱行为和提示注入,支持多语言输入,其 86M 参数模型性能强劲,22M 轻量版本则适合低延迟部署。

  • AlignmentCheck 是一种实验性审计工具,通过分析智能体内部推理轨迹,确保行为与用户目标一致,特别擅长检测间接提示注入。

  • CodeShield 则是一个静态分析引擎,检查 LLM 生成代码中的不安全模式,支持多种编程语言,能在代码提交或执行前捕获 SQL 注入等常见漏洞。

Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall,模拟了 97 个任务领域的提示注入攻击。

结果显示,PromptGuard 2(86M)将攻击成功率(ASR)从 17.6% 降至 7.5%,任务实用性损失极小;AlignmentCheck 进一步将 ASR 降至 2.9%;整体系统将 ASR 降低 90% 至 1.75%,实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色,精准度达 96%,召回率(recall) 79%,响应时间适合生产环境实时使用。

原文链接:https://www.oschina.net/news/348935/meta-llamafirewall-open-source-guardrail-system
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章