Claude Sonnet 4.5 发布,全球最强的代码模型
Anthropic 公司发布了其最新的 AI 模型 Claude Sonnet 4.5,宣称该模型在编码、构建复杂 AI Agent 以及计算机使用方面达到了世界领先水平。 Claude Sonnet 4.5 在多项关键基准测试中实现了重大突破。在 SWE-bench Verified 中以 77.2% 的得分刷新业界纪录,OSWorld 任务执行能力从 42.2% 跃升至 61.4%。 此外,在推理、数学及金融、法律、医学等专业领域,其表现也显著超越了包括 Opus 4.1 在内的前代模型。该模型能够独立连续运行超过 30 小时来完成复杂的编码任务,Anthropic 建议开启 “扩展思考” 功能以最大化其编程性能。 在安全与对齐方面,Anthropic 称 Sonnet 4.5 是其迄今为止最对齐的前沿模型,显著减少了迎合、欺骗等不良行为。 同时,API 也迎来了更新,新增了上下文编辑功能和一个记忆工具。上下文编辑功能允许在接近 tokens 限制时清除过时的上下文,而记忆工具则可以将信息存储在上下文窗口之外,使得智能体现在能够处理更长、更复杂的任务。 Claude Sonnet ...


