6月9日,Anthropic正式发布Claude Fable 5——一款被定位为"Mythos级"的安全可用模型。这是Anthropic首次将Mythos级别的模型"降级"后向公众开放,同时保留给政府合作方一个不受限制的版本Mythos 5。官方公告中称其能力"超过我们此前所有向公众开放的模型",在软件工程、知识工作、视觉、科学研究等几乎所有测试基准上均达到行业领先水平。

Fable 5:性能最强的通用模型
根据官方描述,Fable 5的能力超过了Anthropic此前所有向公众开放的模型。在软件工程、知识工作、视觉、科学研究等几乎所有测试基准上,Fable 5都达到了行业领先水平。尤其值得注意的是:任务越复杂、越长时间,Fable 5相对其他模型的领先优势就越大。


这是Anthropic首次将Mythos级别的模型"降级"后向公众开放。此前的Claude Opus 4.8是Anthropic最强的公开可用模型,但Fable 5显然已经在多个维度实现了超越。
Stripe压缩两个月工程为两天
Fable 5的实际表现让早期测试客户印象深刻。Stripe报告称,Fable 5将数月的工程工作压缩到了几天内完成。在一个包含5000万行代码的Ruby代码库中,该模型执行了一次全代码库迁移,原本需要一整个团队手工操作两个月以上的工作,Fable 5在一天内完成。
在Cogeneo的FrontierCode评估中——该测试检验模型是否能以高质量生产代码库的标准通过困难编码任务——Fable 5在前沿模型中得分最高,即使在中等努力模式下也不例外。

GitHub测试负责人Mario Rodriguez表示:"这是我们测试过的任何Claude模型中最强的结果。Claude Fable 5在代理编码和原型设计方面明显进步。"
金融分析全面满分
在知识工作领域,Fable 5同样表现惊人。在Hebbia的高级推理金融基准测试中,Fable 5得分高于任何其他模型,在文档推理、图表解读和问题解决方面均有显著提升。IMC在交易分析评估中同样记录到Fable 5全面通过,包括事实查询、概念推理、根本原因分析和预期价值分析。
Fable 5还是视觉任务的新一代SOTA模型。它能从详细科学图表中提取精确数字,能仅凭截图重建Web应用的源代码。更令人印象深刻的是,它能在仅凭视觉输入的情况下以最小辅助条件通关《宝可梦:火红版》——这在此前的Claude模型中需要复杂的辅助工具才能实现。
Mythos 5的科学突破
Mythos 5不仅在网络安全上领先,在科学研究领域也展现出惊人潜力。在药物设计方面,Mythos 5将药物设计流程的部分环节加速了约十倍。在一项测试中,Mythos 5仅凭蛋白质设计和生物信息学工具(无人工辅助),就能匹配或超越熟练的人类操作员,执行通常由科学家完成的所有任务:选择结合位点、选择并运行蛋白质设计工具、从失败中恢复。
14个蛋白质靶点中有9个产生了强烈的药物设计候选物,目前正在研究中。
在分子生物学领域,Mythos 5是Anthropic第一个能持续产出新颖、令人信服的科学假设的模型。在与Opus级模型的双盲对比中,科学家们约80%的情况下更偏好Mythos的分子生物学假设。其中一个关于大肠杆菌蛋白的新型机制假设已被一个独立研究同一问题的实验室发表的研究所证实。
Mythos 5还在一周多的半自主工作中完成了新颖的基因组学研究:组装了跨越138个动物物种的数百万个单细胞数据,设计并训练了一个自定义机器学习模型来识别在不同物种中执行相同功能的细胞。仅凭高层人类输入,Mythos 5训练出的模型性能就超越了一篇近期发表于《Science》期刊的模型——尽管小了100倍。
长期记忆与自主性
Fable 5能在长时间运行的任务中保持专注,处理数百万token的上下文,并利用自身的笔记改进输出。在玩卡牌构建游戏Slay the Spire时,拥有持久文件存储记忆的Fable 5性能提升了3倍(相比Opus 4.8的提升幅度更大),且更频繁地到达最终章节。
Anthropic展示了Fable 5自主玩转Factorio(工厂建设游戏)的能力,以及从物理第一性原理推导行星轨道运动并预测日食的能力。该模型还能在浏览器CAD编辑器中设计完整的3D可打印模型。
安全护栏:5%会话的代价
发布能力如此强大的模型伴随着显而易见风险。如果Fable 5的网络安全能力被恶意使用,可能造成严重损害。Anthropic因此为Fable 5配备了安全护栏机制:当系统检测到敏感领域查询时,会自动切换至Claude Opus 4.8进行响应。
为了尽快发布且保证安全,Anthropic承认这些护栏"保守地调整过"——也就是说,约5%的正常会话会意外触发安全限制,被系统"拦截"。他们表示正在努力改进护栏、减少误报,但随着更强大模型即将在未来几个月推出,这项工作显得更加紧迫。
Mythos 5:给美国政府的"无限制版",全球最强网络安全能力
对于一小部分网络防御者和基础设施提供商,Anthropic还同步推出了Claude Mythos 5。这是同一底层模型,但解除了部分安全限制。Mythos 5将首先通过Project Glasswing计划(与美国政府合作)部署,作为此前Claude Mythos Preview的升级版。
Anthropic在公告中明确表示:Mythos 5拥有全球最强的网络安全能力。该公司还表示将很快通过更广泛的"可信访问计划"扩大Mythos 5的获取范围。
价格不到Mythos Preview一半
Anthropic同时宣布了具有竞争力的定价策略:Fable 5和Mythos 5的输入token定价为每百万10美元,输出token为每百万50美元——不到Claude Mythos Preview价格的一半。这一定价策略明显旨在扩大市场覆盖。
早期用户反馈
Cursor CEO Michael Truell:"Claude Fable 5是CursorBench上的SOTA模型。它解锁了此前模型无法触及的长时间视野问题。"
GitHub首席产品官Mario Rodriguez:"对我们的开发者来说是一个真正的进步。在早期测试中,它在复杂的长时间视野编码任务上以自主性和可靠性超越了之前的基准。"
Anthropic表示,随着更强大模型即将在未来几个月推出,他们正在努力改进护栏并减少误报,同时为政府合作保留"无限版"Mythos 5。这一"分级开放"策略很可能成为其他AI玩家的参考模板。
这对行业意味着什么
Anthropic此前在公开场合一直相对谨慎,强调AI安全的渐进式方法。但Fable 5的发布表明,他们正在将最强大的模型推向更广泛的用户群体,同时用安全护栏作为"临时解决方案"。
这背后是一个核心张力:模型能力越强,商业价值越大,但被滥用的风险也越高。Anthropic选择了一条中间路线——不完全封禁,也不完全开放,而是用保守的护栏争取时间窗口,同时为政府合作保留"无限版"。
对于开发者而言,这意味着如果你的应用场景涉及敏感领域,可能需要为Fable 5的"意外拦截"做兼容性准备。而对于整个AI行业而言,Anthropic的这套"分级开放"策略,可能很快会成为其他玩家的参考模板。
参考来源
- https://www.anthropic.com/news/claude-fable-5-mythos-5