共计 992 个字符,预计需要花费 3 分钟才能阅读完成。
Anthropic 近日发布了 Claude 3.7 Sonnet,这是其首个“混合推理模型”,能够解决更复杂的问题,并在数学和编码等领域表现优于之前的模型。与此同时,Anthropic 开始公开测试名为 Claude Code 的“自主”编码工具。
Claude 3.7 Sonnet 从周一开始在 Claude 应用中提供,并通过 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertix AI 向开发者开放。该模型的运行成本与其前身 3.5 Sonnet 相同,每百万输入 token 为 3 美元,每百万输出 token 为 15 美元。
Anthropic 产品研究负责人 Dianne Penn 告诉《The Verge》,尽管 OpenAI 和其他公司提供单独的所谓推理模型,但 Anthropic 希望简化使用模型的体验。“我们从根本上认为推理是 AI 的一个功能,而不是完全独立的东西,”她指出,Claude 回答“现在几点了?”这样的问题应该不会花费太长时间,而回答更复杂的提示,如“计划一次为期两周的意大利旅行,同时考虑三月下旬的天气”,则需要更多时间。
Penn 表示,Claude 3.7 Sonnet 在“自主编码”、金融和法律任务上表现显著更好。尽管 Claude 仍然缺乏像其他模型那样的实时网络搜索功能,但 3.7 版本的知识截止日期为 2024 年 10 月,更为更新。Anthropic 还允许开发者通过其草稿功能帮助引导模型的“思考”方式,甚至可以精确控制响应时间。“有时开发者只需要说回答这个问题不应该超过 200 毫秒,”Anthropic 产品副总裁 Michael Gerstenhaber 表示,“这是一个产品决策。”
在 Anthropic 内部,员工们已经使用新模型构建前端网站设计、互动游戏,甚至通过“来回迭代构建测试集和编辑测试案例”花费长达 45 分钟进行编码工作。公司还通过将模型的 API 映射到控制器方案,测试其在经典 Pokémon 视频游戏中的进阶能力。Claude 3.5 Sonnet 在游戏开始时无法离开 Pallet Town,而 3.7 版本则能够击败多个道馆首领。
正如 Elon Musk 上周通过 Grok-3 展示的那样,AI 模型竞赛正在以惊人的速度推进。目前,Anthropic 似乎再次凭借 Claude 3.7 Sonnet 的性能提升领先。其发布也表明,行业正在朝着一个模型能够完成所有任务的未来迈进,而不是提供独立的推理模型。