共计 1447 个字符,预计需要花费 4 分钟才能阅读完成。
Anthropic 的 Claude AI 近日发布了一款新模型,能够在回应请求时进行更长时间和更深入的“思考”。
新的扩展思考模式可通过 Claude 网站 和 开发者 API 访问,但并非免费提供。尽管 Claude 3.7 Sonnet 对所有用户开放,但只有 Pro 或 Team 订阅者才能使用扩展思考选项。
Anthropic 在 周一的公告 中表示,扩展模式在处理复杂的数学和编码问题以及前端 Web 开发方面表现尤为出色。在这种模式下,Claude 在提供答案之前会进行“自我反思”。这种深入的思考过程使其在处理涉及数学、物理、指令遵循和编码的任务时更为得心应手,并在解决问题的过程中展示其步骤。
Anthropic 还强调,Claude 3.7 Sonnet 在早期测试中表现优异。有网站发现,新模型在处理复杂代码库和使用高级工具方面有显著改进。另一网站则成功使用 Claude 从零开始构建了复杂的 Web 应用和仪表板,这一任务对其他模型来说颇具挑战。在第三次评估中,Claude 生成的代码不仅设计质量高,且错误率显著降低。
在代理工具的测试中,Claude 3.7 Sonnet 的表现不仅超越了其前代版本 3.5/3.6,还领先于 OpenAI 的 o1 和 DeepSeek R1。
Anthropic 在公告中表示:“我们开发 Claude 3.7 Sonnet 的理念与市场上其他推理模型不同。正如人类使用单一大脑进行快速反应和深度思考一样,我们认为推理应该是前沿模型的综合能力,而不是完全独立的模型。这种统一的方法也为用户创造了更无缝的体验。”
如果你是 Pro 或 Team 订阅者,可以尝试 Claude 的新扩展模式。访问 网站,点击模型的下拉菜单,确保选择 Claude 3.7 Sonnet,并将思考模式从“正常”更改为“扩展”。输入并提交你的请求。例如,你可以要求 Claude 创建一个比较 Anthropic、OpenAI 和 Google 提供的不同 AI 模型的网页。
在生成过程中,Claude 会逐行显示 HTML 和 CSS 代码。完成后,你可以以 HTML 模式或预览模式查看页面。唯一的限制是,Claude 的信息仅更新至 2024 年 10 月,因此无法了解此后的实时事件和信息。
此外,Claude 3.7 Sonnet 还为开发者提供了一项创新功能。Anthropic 在新版本中引入了一个用于代理编码的命令行工具,名为 Claude Code。它允许开发者直接从终端向 Claude 分配复杂的工程任务。
目前,Claude Code 作为有限的研究预览提供,能够搜索和读取代码、编辑文件、编写和运行测试,并将代码提交和推送到 GitHub。Anthropic 表示,Claude Code 能够一次性完成通常需要超过 45 分钟手动劳动的任务。
在未来几周内,Claude Code 将添加新功能,如更好的工具调用可靠性、对长时间运行命令的支持以及改进的应用内渲染。有兴趣尝试 Claude Code 的开发者可访问 概述网站,加入候补名单以注册研究预览。
Anthropic 表示:“我们开发 Claude Code 的目标是更好地了解开发者如何使用 Claude 进行编码,以便为未来的模型改进提供信息。通过加入此预览,你将获得与我们用于构建和改进 Claude 的相同强大工具,你的反馈将直接影响其未来。”
2025 年最佳编码 AI(以及不应使用的 AI – 包括 DeepSeek R1)
我测试了 DeepSeek 的 R1 和 V3 编码技能 – 我们还没有完蛋(目前)