Anthropic 发布 Claude Opus 4.5：AI 能力的新里程碑

61次阅读

共计 1011 个字符，预计需要花费 3 分钟才能阅读完成。

Anthropic 公司近日发布了其最新 AI 模型 Claude Opus 4.5，并称其为“AI 系统能力的进一步突破，预示着工作方式的变革。”

Anthropic 的新 AI 模型 Claude Opus 4.5 已正式发布。该模型在创造性问题解决和代理任务方面表现优异。在编码任务上，Claude Opus 4.5 超越了 Google 的 Gemini 3 Pro 和 OpenAI 的 GPT-5.1。

Anthropic 在其公司博客中详细介绍了新模型的性能，称其在“极具挑战性”的工程类员工选拔考试中“得分高于任何人类候选人”，这一结果引发了对 AI 如何改变工程职业的广泛讨论。此外，Gemini 2.5 的一个版本最近在国际大学生程序设计竞赛（ICPC）中获得了最高分，进一步凸显了 AI 在编程领域的潜力。

Claude Opus 4.5 在视觉、推理和数学方面的表现优于之前的 Anthropic 模型，并在代理工具使用和计算机使用等任务中达到了最先进的水平。Anthropic 还强调，其最新模型在复杂问题的推理和灵活适应能力方面达到了新的高度。

在一个测试场景中，Claude Opus 4.5 必须充当自动航空代理，帮助一位要求更改基础经济舱航班的客户。由于虚构的航空公司不允许此类更改，该测试旨在衡量自动代理如何拒绝请求并处理不满的客户。然而，Claude Opus 4.5 找到了一个创造性的解决方案：它首先更改了客户的舱位，然后更改了航班，因为非基础经济舱航班允许此类更改。Anthropic 表示：“从技术上讲，基准测试将其评为失败，因为 Claude 帮助客户的方式是出乎意料的。但这种创造性问题解决正是我们从测试人员和客户那里听到的——这使 Claude Opus 4.5 感觉像是向前迈出的重要一步。”

Claude Opus 4.5 在表现出“令人担忧的行为”方面得分优于其前身和其他前沿模型，Anthropic 将其定义为“既包括与人类滥用的合作，也包括模型主动采取的不良行为。”

Claude Opus 4.5 现已在 Claude 应用、API 以及三大云平台（Azure、Amazon Web Services 和 Google Cloud）上提供，定价为每百万个 token 5/25 美元。

Anthropic 在 9 月份的最新一轮融资后报告了 1830 亿美元的估值，这一数字主要得益于 Claude 在企业客户中的受欢迎程度。该公司还于本月早些时候宣布，将投资 500 亿美元在美国各地建设自己的数据中心，以支持新 AI 模型的训练。

正文完