GPT-5编程测试表现令人失望：OpenAI新旗舰模型的问题解析

99次阅读

共计 1029 个字符，预计需要花费 3 分钟才能阅读完成。

在最新的编程基准测试中，OpenAI 的新旗舰模型 GPT-5 表现令人失望。尽管它被寄予厚望，但在实际测试中，GPT-5 生成了损坏的插件、有缺陷的脚本以及充满自信的错误答案，这些都可能在没有仔细人工监督的情况下破坏项目。以下是我在测试 GPT-5 后的详细发现。,

在我的编程测试中，GPT-5 的表现是 OpenAI 旗舰模型中最差的一次。它在我精心设计的测试中失败了一半，这让我不得不重新评估是否继续使用它。

GPT- 5 编程测试表现令人失望：OpenAI 新旗舰模型的问题解析

我首先测试了 GPT-5 编写 WordPress 插件的能力。虽然它生成了代码并提供了必要的用户界面，但在第一次尝试中，插件未能正常工作。点击“随机化”按钮时，页面重定向到了一个错误页面，而不是生成随机化的结果。经过多次修复后，GPT-5 最终生成了一个可用的插件，但这显然是一个倒退。,

在第二个测试中，GPT-5 被要求重写一个字符串函数，以更好地检查美元和美分。GPT-5 在这个测试中表现尚可，它按照要求重写了函数，但没有进行任何错误检查。虽然这不是我要求的内容，但它确实按照指示完成了任务。,

第三个测试涉及一个较为复杂的 WordPress 框架 bug。GPT-5 在这个测试中表现良好，与之前的 GPT-4 和 GPT-4o 一样，它理解并解决了这个问题。,

最后一个测试要求 GPT-5 结合 Mac 脚本工具 Keyboard Maestro、AppleScript 和 Chrome 脚本行为编写代码。GPT-5 在这个测试中彻底失败，它不仅在 AppleScript 中误解了大小写的工作方式，还引用了一个未定义的变量，导致生成的代码完全无法使用。,

OpenAI 在发布 GPT-5 后，似乎过于自信地将其作为默认模型，并一度切断了用户回退到 GPT-4o 的选项。然而，用户的反响非常强烈，整个互联网都在抱怨 GPT-5 的表现。最终，OpenAI 在周六推出了一个新选项，允许付费用户选择回退到旧模型。,

尽管 GPT-5 在深度推理能力上有所提升，但在编程任务中的表现却令人失望。作为 ChatGPT Pro 的付费用户，我目前更倾向于继续使用 GPT-4o 进行编码工作。GPT-5 的表现可能需要随着时间的推移而改善，但在现阶段，它显然无法胜任复杂的编程任务。

你试过用 GPT-5 进行编程任务了吗？它的表现如何？你会选择继续使用 GPT-5，还是回退到旧模型？欢迎在评论区分享你的看法。

正文完

发表至： AI行业动态

2025-08-11 12:05

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

阿尔巴尼斯内阁因AI法案取消引发分歧，澳大利亚AI监管何去何从？

GPT-5 的失败表现