Anthropic 宣布其最新款的 Claude Opus 4.7 已全面上市。在高级软件工程方面相比 Opus 4.6 有了显著提升,尤其是在处理最复杂的任务方面。Opus 4.7 能够严谨且一致地处理复杂、耗时的任务,精准地执行指令,并在返回结果之前设计出验证自身输出的方法。
根据介绍,该模型还拥有显著更佳的视觉效果:它能够识别更高分辨率的图像。在完成专业任务时更具品味和创造力,能够制作出更高质量的界面、幻灯片和文档。尽管它的功能不如 Claude Mythos Preview 全面,但在多项基准测试中,它的表现都优于 Opus 4.6:

Anthropic 曾于上周发布了“Project Glasswing,”项目,重点阐述了 AI 模型在网络安全领域的风险与优势。同时声明将限制 Claude Mythos Preview 的发布范围,并首先在功能较弱的模型上测试新的网络安全防护措施。Opus 4.7 则是首个此类模型,配备了安全防护措施,能够自动检测并阻止表明存在违禁或高风险网络安全用途的请求。
Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。定价与 Opus 4.6 相同:输入 $5/百万 token,输出 $25/百万 token。
Claude Opus 4.7 的一些早期测试反馈如下:
- 指令执行方面,Opus 4.7 的表现有了显著提升。有趣的是,这意味着之前版本编写的提示信息现在有时可能会产生意想不到的结果:之前的版本对指令的解释较为宽泛,甚至完全跳过某些部分,而 Opus 4.7 则会严格按照指令执行。用户应据此调整提示信息和相关设置。
- 改进的多模态支持。Opus 4.7 对高分辨率图像的处理能力更强:它可以处理长边高达 2,576 像素(约 375 万像素)的图像,是之前 Claude 型号的三倍以上。这为依赖精细视觉细节的多模态应用开辟了广阔的空间:例如,计算机代理读取信息密集型截图、从复杂图表中提取数据以及需要像素级精确参考的工作。
- 实际应用。除了在 Finance Agent 评估中获得领先水平(见上表)外,内部测试表明,Opus 4.7 比 Opus 4.6 更高效地进行财务分析,能够生成严谨的分析和模型,呈现更专业的演示文稿,并在各项任务之间实现更紧密的整合。Opus 4.7 在 GDPval-AA 评估中也处于领先水平,GDPval-AA是一项针对金融、法律及其他领域具有经济价值的知识工作的第三方评估。
- 内存方面,Opus 4.7 更擅长利用基于文件系统的内存。它能记住长时间、多会话工作中的重要笔记,并利用这些笔记继续执行新的任务,因此这些新任务对预先获取的上下文信息要求更低。

总体而言,Opus 4.7 的安全性能与 Opus 4.6 相似:评估显示,其出现欺骗、奉承和与滥用者合作等令人担忧的行为的比例较低。

此外,Anthropic 还推出了以下更新:
- 更精细的难度控制:Opus 4.7 新增了一个介于
high和max之间的xhigh (“extra high”) 难度级别,使用户能够更精确地控制在解决难题时推理速度和延迟之间的权衡。Claude Code 已将所有套餐的默认难度级别提升至xhigh。
- 在 Claude Platform (API) 上:除了支持更高分辨率的图像外,还在公开测试版中推出了任务预算,为开发者提供了一种引导 Claude 消耗 token 的方式,以便它可以优先处理较长时间内的工作。
- 在 Claude Code 中:新增的
/ultrareview slash command 会创建一个专门的审查会话,读取所有更改并标记出 bug 和设计问题。Pro/Max 用户各有三次免费额度。此外,其还将 auto mode 扩展到了 Max 用户。