Claude Sonnet 4.5 发布,全球最强的代码模型
Anthropic 公司发布了其最新的 AI 模型 Claude Sonnet 4.5,宣称该模型在编码、构建复杂 AI Agent 以及计算机使用方面达到了世界领先水平。
Claude Sonnet 4.5 在多项关键基准测试中实现了重大突破。在 SWE-bench Verified 中以 77.2% 的得分刷新业界纪录,OSWorld 任务执行能力从 42.2% 跃升至 61.4%。
此外,在推理、数学及金融、法律、医学等专业领域,其表现也显著超越了包括 Opus 4.1 在内的前代模型。该模型能够独立连续运行超过 30 小时来完成复杂的编码任务,Anthropic 建议开启 “扩展思考” 功能以最大化其编程性能。
在安全与对齐方面,Anthropic 称 Sonnet 4.5 是其迄今为止最对齐的前沿模型,显著减少了迎合、欺骗等不良行为。
同时,API 也迎来了更新,新增了上下文编辑功能和一个记忆工具。上下文编辑功能允许在接近 tokens 限制时清除过时的上下文,而记忆工具则可以将信息存储在上下文窗口之外,使得智能体现在能够处理更长、更复杂的任务。
Claude Sonnet 4.5 已在 Anthropic 的各个官方平台和工具上可用,开发者可通过 claude-sonnet-4-5 进行 API 调用。其定价与 Claude Sonnet 4 保持一致,为每百万输入 Token 3 美元,每百万输出 Token 15 美元。该模型也已在 Cursor、Augment、Windsurf、GitHub Copilot、JetBrains、Perplexity 等多个第三方平台上线。

