安全研究员抱怨 Claude Fable 模型防护机制过于严格，读取博客文章也被拦截-低调大师

安全研究员抱怨 Claude Fable 模型防护机制过于严格，读取博客文章也被拦截

2026-06-11 51

当一家 AI 公司在发布最强能力级别的模型时选择了"有节制地开放"，安全研究员们发现这个"节制的度"可能已经超出了实用范围。Anthropic 于本周二发布了 Fable 模型——作为其旗舰网络安全模型 Mythos 的公开受限版本——但安全社区的反馈几乎是清一色的抱怨：限制太严了，连"读取一篇博客文章"都会被标记为潜在网络安全相关操作并遭到拒绝。

Anthropic 将 Fable 定位为面向网络安全专业人士的 AI 模型，但在实际使用中，许多安全研究员发现它的防护机制采用了简单粗暴的关键词匹配策略。IBM X-Force 安全研究员 Valentina "Chompie" Palmiotti 在社交平台上公开表示，Fable 会拒绝任何"与网络安全或生物学主题有边缘关联"的请求——即便是阅读一篇技术博客文章这样完全无害的操作，也会触发拦截。

资深安全专家 Matt Suiche 告诉 TechCrunch 的记者，当你让 Fable "写一段安全代码"时，它会自动将其归类为网络安全相关工作，而不是软件开发最佳实践。他说，这种限制机制"看起来是基于关键词的，因此任何属于'网络安全'词域的内容都会触发拦截"。另一位不愿透露姓名的安全研究员描述了一个更极端的场景：仅仅是"请求进行代码审查"这一个动作，就足以触发 Fable 的防护机制并拒绝响应。

Anthropic 推出 Fable 的背景是：Mythos 5 作为其最强能力级别的模型，在网络和生物领域具备显著的风险能力。Anthropic 选择将这些能力封装在 Fable 中，以更保守的姿态向公众开放——但它同时配置了严格的内容政策，将"网络安全"相关话题几乎全面封锁。这种设计背后的逻辑是：防止模型能力被滥用，同时为真正有需求的专业人士提供一个申请通道。

这个申请通道就是 Anthropic 的"网络验证计划"（Cyber Verification Program）——安全专业人员可以申请加入，以获得更少的模型使用限制。类似的做法也出现在 OpenAI：该公司为其 GPT 系列模型提供了名为"Trusted Access for Cyber"的同类计划，面向网络安全专业人士开放更多功能。行业头部公司不约而同地选择通过"白名单制"来管理高能力模型的分发，背后是对AI辅助网络攻击风险的真实担忧——Anthropic 此前曾公开披露过国家级行为者利用 AI 系统进行情报搜集的案例，数据勒索活动也是他们公开讨论过的威胁场景。

但安全社区的疑问在于：当"读取技术博客"和"请求代码审查"这样的基础操作都被自动拒绝时，这个"受限版"模型的实际可用性还剩多少？一位安全研究员在评论中写道："如果一个网络安全模型把正常的技术工作流都当作威胁来拦截，它实际上是在迫使安全专业人员要么放弃使用这个工具，要么寻找更宽松的替代方案——而这恰恰是 AI 安全领域最不希望看到的结果。"

这番话道出了当前网络安全 AI 工具市场的核心矛盾：模型能力越强，安全团队越渴望使用；但模型能力越强，AI 公司越倾向于保守部署。

Fable 当前遭遇的困境，折射出 AI 实验室在模型安全部署上的共同难题：如何在防止滥用的同时，保持模型的实用性和专业价值。基于关键词的过滤机制实施成本低、部署快，但它的副作用是产生大量误伤——将正常的专业工作流程错误地识别为潜在风险操作。这类误伤在 Fable 的案例中表现得尤为明显：代码审查、安全编码教学这些网络安全从业者的日常高频操作，全部被归入高风险类别而遭到无差别拦截。

更精细的方案需要更深入的内容理解和上下文感知能力——模型需要能够区分"教人写安全代码"与"利用代码漏洞进行攻击"之间的本质差别。这种能力在技术上要求更高，但在用户体验上是必要的。Suiche 认为，随着 Anthropic 与更多真实用户和组织的互动深入，模型的过滤机制会逐步向更智能的方向演进。当前 Fable 遇到的批评，更像是一个新模型类别在早期阶段必经的磨合痛苦，而非设计思路的根本性错误。

微信关注我们

原文链接：https://www.oschina.net/news/455900

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

苹果发布 macOS Container machine，在 Mac 上打造无缝 Linux 开发环境

苹果发布了名为Container Machine的项目，旨在为Mac用户提供一个高度集成、流畅的Linux开发环境。这一项目基于标准OCI镜像构建，集成了主机级别的功能特性，让开发者在Mac和Linux之间实现真正的无缝切换。为什么需要Container machine？传统的容器通常以应用程序为中心进行构建，而Container Machine则以Linux环境为中心进行构建。它运行镜像的init系统，允许用户注册长期运行的服务，或在进程监管下测试应用程序。 Container Machine会自动将用户名和主目录映射到Linux环境中。开发者的仓库和配置文件在两个平台都可用&mdash...

2026-06-11

53

开源中国造物社区正式推出「AI 造物大赏」月度系列活动，面向全网硬件创客征集 AI 加持的实体项目。不限硬件品牌、不限开发平台，只要你有想法、有作品，就来秀！

2026-06-11

43

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。