Anthropic 发布 Claude 3.7 Sonnet：混合推理 AI 模型的新标杆

174次阅读

共计 992 个字符，预计需要花费 3 分钟才能阅读完成。

Anthropic 近日发布了 Claude 3.7 Sonnet，这是其首个“混合推理模型”，能够解决更复杂的问题，并在数学和编码等领域表现优于之前的模型。与此同时，Anthropic 开始公开测试名为 Claude Code 的“自主”编码工具。

Claude 3.7 Sonnet 从周一开始在 Claude 应用中提供，并通过 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertix AI 向开发者开放。该模型的运行成本与其前身 3.5 Sonnet 相同，每百万输入 token 为 3 美元，每百万输出 token 为 15 美元。

Anthropic 产品研究负责人 Dianne Penn 告诉《The Verge》，尽管 OpenAI 和其他公司提供单独的所谓推理模型，但 Anthropic 希望简化使用模型的体验。“我们从根本上认为推理是 AI 的一个功能，而不是完全独立的东西，”她指出，Claude 回答“现在几点了？”这样的问题应该不会花费太长时间，而回答更复杂的提示，如“计划一次为期两周的意大利旅行，同时考虑三月下旬的天气”，则需要更多时间。

Penn 表示，Claude 3.7 Sonnet 在“自主编码”、金融和法律任务上表现显著更好。尽管 Claude 仍然缺乏像其他模型那样的实时网络搜索功能，但 3.7 版本的知识截止日期为 2024 年 10 月，更为更新。Anthropic 还允许开发者通过其草稿功能帮助引导模型的“思考”方式，甚至可以精确控制响应时间。“有时开发者只需要说回答这个问题不应该超过 200 毫秒，”Anthropic 产品副总裁 Michael Gerstenhaber 表示，“这是一个产品决策。”

在 Anthropic 内部，员工们已经使用新模型构建前端网站设计、互动游戏，甚至通过“来回迭代构建测试集和编辑测试案例”花费长达 45 分钟进行编码工作。公司还通过将模型的 API 映射到控制器方案，测试其在经典 Pokémon 视频游戏中的进阶能力。Claude 3.5 Sonnet 在游戏开始时无法离开 Pallet Town，而 3.7 版本则能够击败多个道馆首领。

正如 Elon Musk 上周通过 Grok-3 展示的那样，AI 模型竞赛正在以惊人的速度推进。目前，Anthropic 似乎再次凭借 Claude 3.7 Sonnet 的性能提升领先。其发布也表明，行业正在朝着一个模型能够完成所有任务的未来迈进，而不是提供独立的推理模型。

正文完