Meta 开源 LlamaFirewall，面向 AI 智能体的安全框架-低调大师

Meta 开源 LlamaFirewall，面向 AI 智能体的安全框架

2025-05-09 364

Meta 开源了名为 LlamaFirewall 的安全框架，用于应对 AI 智能体不断演变的威胁格局，为生产环境中的 AI 智能体提供系统级安全保护。

https://meta-llama.github.io/PurpleLlama/LlamaFirewall/

随着大型语言模型（LLMs）嵌入 AI 智能体并被广泛应用于高权限场景，安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API，一旦被恶意利用，后果不堪设想。

传统的安全机制，如聊天机器人内容审核或硬编码模型限制，已无法满足具备广泛能力的 AI 智能体需求。Meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战，开发了 LlamaFirewall。

LlamaFirewall 采用分层框架，包含三个专门的防护模块：

PromptGuard 2 是一个基于 BERT 架构的分类器，能实时检测越狱行为和提示注入，支持多语言输入，其 86M 参数模型性能强劲，22M 轻量版本则适合低延迟部署。
AlignmentCheck 是一种实验性审计工具，通过分析智能体内部推理轨迹，确保行为与用户目标一致，特别擅长检测间接提示注入。
CodeShield 则是一个静态分析引擎，检查 LLM 生成代码中的不安全模式，支持多种编程语言，能在代码提交或执行前捕获 SQL 注入等常见漏洞。

Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall，模拟了 97 个任务领域的提示注入攻击。

结果显示，PromptGuard 2（86M）将攻击成功率（ASR）从 17.6% 降至 7.5%，任务实用性损失极小；AlignmentCheck 进一步将 ASR 降至 2.9%；整体系统将 ASR 降低 90% 至 1.75%，实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色，精准度达 96%，召回率（recall） 79%，响应时间适合生产环境实时使用。

微信关注我们

原文链接：https://www.oschina.net/news/348935/meta-llamafirewall-open-source-guardrail-system

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

IBM 用 AI 取代数百名员工，员工总数却增加了

根据《华尔街日报》的报道，IBM 首席执行官 Arvind Krishna 表示，公司已利用 AI 取代数百名人力资源员工，但同时增加了程序员和销售人员的招聘。 Krishna 表示：“虽然我们在 IBM 内部针对某些企业工作流程大量运用了 AI 和自动化技术，但我们的总员工人数实际上是增加了，因为这些技术使得我们能够将更多投资投入到其他领域。” Krishna 所指的 “其他领域” 包括软件工程、销售和市场营销等职位，也就是他所说的 “注重批判性思维” 的领域。在这些岗位上，人们需要执行的是 “与他人互动或面对面解决问题的任务，而不是机械重复的流程性工作”。虽然 IBM 表示用 AI 取得了人力资源员工，但并未说明其裁员是在什么时间段内发生的。 IBM 在波士顿的年度 Think 大会上宣布推出新服务，帮助企业构建和管理 AI 智能体，该服务兼容亚马逊、OpenAI、英伟达和微软等巨头的 AI 技术。IBM 鼓励客户选择最合适的工具和技术。阅读更多：IBM CEO：AI 短期内不会取代程序员

2025-05-09

280

电子设计自动化技术提供商 Cadence 公司推出了一款新型超级计算机，可支持一整套由英伟达 Blackwell 系统和英伟达 CUDA-X 软件库加速的工程设计和生命科学应用。这款超级计算机名为 Millennium M2000 ，配备了英伟达 HGX B200 系统和英伟达 RTX PRO 6000 Blackwell 服务器版 GPU，每台设备成本估算为 200 万美元。与优化的软件相结合，该超级计算机在电子设计自动化、系统设计和生命科学工作负载方面的性能比上一代基于 CPU 的系统提高了 80 倍。 Cadence CEO 安尼鲁德・德夫甘（Anirudh Devgan）表示：“Millennium M2000 专为最先进的 AI 模型打造，通过可扩展求解器与 Blackwell 加速计算，突破工程设计的物理极限。"NVIDIA 创始人黄仁勋补充称：" 这种科学 AI 工厂将推动跨学科突破。” 据称，该设备提供云端与本地部署两种模式，已获联发科、超微电脑等客户采用。其市场定位介于中小企业适用的 TinyBox AI 加速器（1.5 万美元起）与马斯克 xAI 的孟菲斯超级计...

2025-05-09

284

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。