测试Claude Opus 4.5:它真的是最佳编程模型吗?结果出人意料

13次阅读
没有评论

共计 759 个字符,预计需要花费 2 分钟才能阅读完成。

Anthropic 公司最新发布的 Claude Opus 4.5 模型宣称是“世界上最适合编码、代理和计算机使用的模型”。然而,ZDNET 的测试结果却显示,这一宣称可能为时尚早。,

测试结果

在四个简单的编程任务中,Opus 4.5 仅通过了两个,失败率高达 50%。以下是具体测试细节:

测试 Claude Opus 4.5:它真的是最佳编程模型吗?结果出人意料

  • 编写 WordPress 插件
    任务要求编写一个简单的 WordPress 插件,Opus 4.5 生成了 312 行的 PHP 文件、178 行的 JavaScript 文件和 133 行的 CSS 文件。然而,首次尝试时,Opus 4.5 将三个文件合并为一个,导致下载失败。最终,虽然成功获取了 PHP 和 CSS 代码,但 JavaScript 代码中混入了未注释的文档说明,且插件功能并未完全实现。
  • 重写字符串函数
    任务要求修复一段简单的 JavaScript 代码,Opus 4.5 返回的代码拒绝了过多的边缘案例,并且在某些情况下会导致程序崩溃。
  • 识别代码错误
    任务要求识别 PHP 和 WordPress 框架中的错误,Opus 4.5 顺利通过。
  • 与多个程序交互
    任务要求与 AppleScript、Chrome 和 Keyboard Maestro 三个程序进行交互,Opus 4.5 表现出色,避免了其他 AI 常见的错误。

结论

尽管 Opus 4.5 在某些任务中表现出色,但其整体表现并不符合“世界上最好的编程模型”这一宣称。特别是在处理文件时,Opus 4.5 显示出明显的不足。Anthropic 公司表示会不断改进,但目前 Opus 4.5 显然尚未准备好进入主流市场。

相关阅读:,

正文完
 0
admin-gah
版权声明:本文于2025-11-25转载自Zdnet,共计759字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码