测试Claude Opus 4.5：它真的是最佳编程模型吗？结果出人意料

63次阅读

共计 759 个字符，预计需要花费 2 分钟才能阅读完成。

Anthropic 公司最新发布的 Claude Opus 4.5 模型宣称是“世界上最适合编码、代理和计算机使用的模型”。然而，ZDNET 的测试结果却显示，这一宣称可能为时尚早。,

在四个简单的编程任务中，Opus 4.5 仅通过了两个，失败率高达 50%。以下是具体测试细节：

测试 Claude Opus 4.5：它真的是最佳编程模型吗？结果出人意料

编写 WordPress 插件
任务要求编写一个简单的 WordPress 插件，Opus 4.5 生成了 312 行的 PHP 文件、178 行的 JavaScript 文件和 133 行的 CSS 文件。然而，首次尝试时，Opus 4.5 将三个文件合并为一个，导致下载失败。最终，虽然成功获取了 PHP 和 CSS 代码，但 JavaScript 代码中混入了未注释的文档说明，且插件功能并未完全实现。
重写字符串函数
任务要求修复一段简单的 JavaScript 代码，Opus 4.5 返回的代码拒绝了过多的边缘案例，并且在某些情况下会导致程序崩溃。
识别代码错误
任务要求识别 PHP 和 WordPress 框架中的错误，Opus 4.5 顺利通过。
与多个程序交互
任务要求与 AppleScript、Chrome 和 Keyboard Maestro 三个程序进行交互，Opus 4.5 表现出色，避免了其他 AI 常见的错误。

尽管 Opus 4.5 在某些任务中表现出色，但其整体表现并不符合“世界上最好的编程模型”这一宣称。特别是在处理文件时，Opus 4.5 显示出明显的不足。Anthropic 公司表示会不断改进，但目前 Opus 4.5 显然尚未准备好进入主流市场。

相关阅读：,

正文完