Anthropic发布Claude Opus 4和Sonnet 4：编码与复杂问题解决的新标杆

167次阅读

共计 883 个字符，预计需要花费 3 分钟才能阅读完成。

Anthropic 近日发布了其最新一代混合推理 AI 模型 Claude Opus 4 和 Claude Sonnet 4，这两款模型专为编码任务和解决复杂问题而优化。

根据 Anthropic 的公告，Claude Opus 4 是该公司迄今为止最强大的 AI 模型，能够持续处理长时间运行的任务，持续“数小时”。在客户测试中，Anthropic 表示 Opus 4 自主运行了七个小时，显著扩展了 AI 代理的可能性。该公司还将其新旗舰模型描述为“世界上最好的编码模型”，Anthropic 的基准测试显示，Opus 4 在编码任务和使用“工具”（如网络搜索）方面优于 Google 的 Gemini 2.5 Pro、OpenAI 的 o3 reasoning 和 GPT-4.1 模型。

Anthropic 发布 Claude Opus 4 和 Sonnet 4：编码与复杂问题解决的新标杆

Claude Sonnet 4 是一款更经济实惠且注重效率的模型，更适合一般任务，它取代了 2 月发布的 3.7 Sonnet 模型。Anthropic 表示，Sonnet 4 提供了“卓越的编码和推理”能力，同时提供更精确的响应。该公司补充说，与 3.7 Sonnet 相比，这两款模型在完成任务时走捷径和漏洞的可能性降低了 65%，并且当开发者为 Claude 提供本地文件访问权限时，它们更擅长存储长期任务的关键信息。

Claude 4 模型引入的一项新功能是“思考摘要”，它将聊天机器人的推理过程浓缩为易于理解的见解。此外，还推出了“扩展思考”功能的测试版，允许用户在推理模式或使用工具模式之间切换模型，以提高响应性能和准确性。

Claude Opus 4 和 Sonnet 4 已在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上提供，这两款模型都包含在付费的 Claude 计划中，并附带扩展思考测试版功能。目前，免费用户只能访问 Claude Sonnet 4。

除了新模型外，Anthropic 的 Claude Code 代理命令行工具在 2 月的有限预览后现已全面推出。Anthropic 还表示，随着公司努力跟上 OpenAI、Google 和 Meta 的竞争，它正在转向提供“更频繁的模型更新”。

这些是 Anthropic 自己的内部基准测试，因此结果仅供参考。

正文完