Opus 4.5 编程模型实测：失败率高达50%，真的能称世界最佳吗？

43次阅读

共计 653 个字符，预计需要花费 2 分钟才能阅读完成。

Anthropic 最新发布的 Opus 4.5 模型宣称是“世界上最智能、最高效的编程、代理和计算机使用模型”。然而，在实际测试中，这款高端模型的表现却令人失望。

Opus 4.5 编程模型实测：失败率高达 50%，真的能称世界最佳吗？

在四项基本编程测试中，Opus 4.5 仅通过了两项，文件处理问题导致插件测试几乎无法完成。尽管通过了部分测试，但可靠性问题依然突出。

值得注意的是，Anthropic 的低端模型 Sonnet 反而在编程测试中表现优异。这不禁让人质疑：为何高端模型反而表现不佳？

在编写 WordPress 插件的测试中，Opus 4.5 首先生成了一个包含 PHP、JavaScript 和 CSS 代码的文件，但无法下载。随后，模型虽然生成了代码，但在实际运行中，插件界面虽然显示，却无法执行任何功能。

在重写字符串函数的测试中，Opus 4.5 返回的代码不仅拒绝了许多有效的输入格式，还在处理空值时直接崩溃。

尽管在另外两项测试中，Opus 4.5 成功识别了 PHP 和 WordPress 框架中的深层错误，并完成了涉及 AppleScript、Chrome 和 Keyboard Maestro 的复杂任务，但其整体表现仍然令人失望。

结论是，Opus 4.5 在两项测试中表现良好，但在另外两项中却完全失败。这种不稳定的表现与其宣称的“世界最佳编程模型”相去甚远。尽管在特定场景下，Opus 4.5 可能表现出色，但在当前阶段，它显然还未准备好进入主流应用。

Anthropic 可能会在未来改进这一模型，但就目前而言，Opus 4.5 的表现远未达到预期。我们将继续关注 Anthropic 的后续回应，并更新相关进展。

正文完

发表至： AI行业动态

2025-11-25 12:08

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

AI与数字孪生在医疗保健中的接受度研究

国内高校严查AI作弊，学术诚信面临新挑战