共计 1011 个字符,预计需要花费 3 分钟才能阅读完成。
Anthropic 公司近日发布了其最新 AI 模型 Claude Opus 4.5,并称其为“AI 系统能力的进一步突破,预示着工作方式的变革。”
Anthropic 的新 AI 模型 Claude Opus 4.5 已正式发布。该模型在创造性问题解决和代理任务方面表现优异。在编码任务上,Claude Opus 4.5 超越了 Google 的 Gemini 3 Pro 和 OpenAI 的 GPT-5.1。
Anthropic 在其公司博客中详细介绍了新模型的性能,称其在“极具挑战性”的工程类员工选拔考试中“得分高于任何人类候选人”,这一结果引发了对 AI 如何改变工程职业的广泛讨论。此外,Gemini 2.5 的一个版本最近在国际大学生程序设计竞赛(ICPC)中获得了最高分,进一步凸显了 AI 在编程领域的潜力。
Claude Opus 4.5 在视觉、推理和数学方面的表现优于之前的 Anthropic 模型,并在代理工具使用和计算机使用等任务中达到了最先进的水平。Anthropic 还强调,其最新模型在复杂问题的推理和灵活适应能力方面达到了新的高度。
在一个测试场景中,Claude Opus 4.5 必须充当自动航空代理,帮助一位要求更改基础经济舱航班的客户。由于虚构的航空公司不允许此类更改,该测试旨在衡量自动代理如何拒绝请求并处理不满的客户。然而,Claude Opus 4.5 找到了一个创造性的解决方案:它首先更改了客户的舱位,然后更改了航班,因为非基础经济舱航班允许此类更改。Anthropic 表示:“从技术上讲,基准测试将其评为失败,因为 Claude 帮助客户的方式是出乎意料的。但这种创造性问题解决正是我们从测试人员和客户那里听到的——这使 Claude Opus 4.5 感觉像是向前迈出的重要一步。”
Claude Opus 4.5 在表现出“令人担忧的行为”方面得分优于其前身和其他前沿模型,Anthropic 将其定义为“既包括与人类滥用的合作,也包括模型主动采取的不良行为。”
Claude Opus 4.5 现已在 Claude 应用、API 以及三大云平台(Azure、Amazon Web Services 和 Google Cloud)上提供,定价为每百万个 token 5/25 美元。
Anthropic 在 9 月份的最新一轮融资后报告了 1830 亿美元的估值,这一数字主要得益于 Claude 在企业客户中的受欢迎程度。该公司还于本月早些时候宣布,将投资 500 亿美元在美国各地建设自己的数据中心,以支持新 AI 模型的训练。