Claude Sonnet 4.5：编码工具的革命性升级

82次阅读

共计 1227 个字符，预计需要花费 4 分钟才能阅读完成。

Anthropic 近日发布了其最新的编码工具 Claude Sonnet 4.5，并宣称这是“世界上最好的编码模型”。作为五月发布的 Claude 4 Sonnet 的升级版本，这一新模型在性能上实现了全面飞跃，成为构建复杂代理、提升计算机利用能力以及增强推理和数学能力的利器。

Claude Sonnet 4.5 在多个关键领域取得了显著进展。首先，在行业标准软件工程基准测试（SWE-bench）中，它再次超越了前代模型。SWE-bench 评估大型语言模型（LLM）解决来自 GitHub 的真实世界软件工程任务的能力，而 Sonnet 4.5 在 SWE-bench Verified 这一人工筛选的子集中表现尤为出色。它不仅超越了前代模型，还击败了竞争对手的领先模型，包括 GPT-5 Codex、GPT-5 和 Gemini 2.5 Pro。

Anthropic 表示，Sonnet 4.5 在复杂的多步骤任务上能够保持专注超过 30 小时，这一能力使其特别适用于需要长时间独立工作的代理任务。此外，Sonnet 4.5 在计算机任务上的表现也得到了显著提升。根据 OSWorld 基准测试，Sonnet 4.5 的得分从四个月前的 42.2% 提升至 61.4%，展示了其在真实世界计算机任务中的强大能力。

Claude Sonnet 4.5 不仅是性能的飞跃，还在安全性和对齐性上取得了重要进展。Anthropic 称其为“最对齐”的前沿模型，意味着它更符合人类的指令和预期用例，减少了诸如阿谀奉承和欺骗等行为的出现。此外，该模型还具备更强的抵抗提示注入攻击的能力，并在 Anthropic 的模型框架上达到了 AI 安全级别 3（ASL-3）的保护标准。

Claude Sonnet 4.5 现已全球上线，用户可以通过 Claude.ai 聊天机器人直接体验。对于开发者和专业人士，Anthropic 提供了 API 和 Claude Code 的访问权限，价格与 Sonnet 4 相同。此外，Claude for Chrome 扩展也已向所有上个月加入等待名单的用户开放，充分利用了 Sonnet 4.5 的新功能。

除了核心模型的升级，Anthropic 还对其编码产品进行了多项改进。Claude Code 新增了检查点功能，允许用户保存进度并返回到之前的状态。终端界面也经过了全面更新，并推出了原生的 VS Code 扩展。此外，Anthropic 还发布了 Claude Agent SDK，开发者可以利用这一底层基础设施构建自己的代理。

Claude Code API 引入了新的上下文编辑功能和内存工具，使代理能够更高效地工作并解决更复杂的问题。同时，Claude 应用程序也得到了升级，现在能够在聊天中执行代码并创建文件。

Claude Sonnet 4.5 的发布标志着 Anthropic 在编码工具领域的又一次重大突破。无论是性能、安全性还是用户体验，这一新模型都为开发者和专业人士提供了更强大的工具和更广阔的可能性。随着全球范围内的上线，Claude Sonnet 4.5 有望成为下一代编码工具的首选。

正文完