共计 653 个字符,预计需要花费 2 分钟才能阅读完成。
Anthropic 最新发布的 Opus 4.5 模型宣称是“世界上最智能、最高效的编程、代理和计算机使用模型”。然而,在实际测试中,这款高端模型的表现却令人失望。

在四项基本编程测试中,Opus 4.5 仅通过了两项,文件处理问题导致插件测试几乎无法完成。尽管通过了部分测试,但可靠性问题依然突出。
值得注意的是,Anthropic 的低端模型 Sonnet 反而在编程测试中表现优异。这不禁让人质疑:为何高端模型反而表现不佳?
测试详情
在编写 WordPress 插件的测试中,Opus 4.5 首先生成了一个包含 PHP、JavaScript 和 CSS 代码的文件,但无法下载。随后,模型虽然生成了代码,但在实际运行中,插件界面虽然显示,却无法执行任何功能。
在重写字符串函数的测试中,Opus 4.5 返回的代码不仅拒绝了许多有效的输入格式,还在处理空值时直接崩溃。
尽管在另外两项测试中,Opus 4.5 成功识别了 PHP 和 WordPress 框架中的深层错误,并完成了涉及 AppleScript、Chrome 和 Keyboard Maestro 的复杂任务,但其整体表现仍然令人失望。
结论是,Opus 4.5 在两项测试中表现良好,但在另外两项中却完全失败。这种不稳定的表现与其宣称的“世界最佳编程模型”相去甚远。尽管在特定场景下,Opus 4.5 可能表现出色,但在当前阶段,它显然还未准备好进入主流应用。
Anthropic 可能会在未来改进这一模型,但就目前而言,Opus 4.5 的表现远未达到预期。我们将继续关注 Anthropic 的后续回应,并更新相关进展。