共计 1029 个字符,预计需要花费 3 分钟才能阅读完成。
在最新的编程基准测试中,OpenAI 的新旗舰模型 GPT-5 表现令人失望。尽管它被寄予厚望,但在实际测试中,GPT-5 生成了损坏的插件、有缺陷的脚本以及充满自信的错误答案,这些都可能在没有仔细人工监督的情况下破坏项目。以下是我在测试 GPT-5 后的详细发现。,
GPT-5 的失败表现
在我的编程测试中,GPT-5 的表现是 OpenAI 旗舰模型中最差的一次。它在我精心设计的测试中失败了一半,这让我不得不重新评估是否继续使用它。
1. 编写 WordPress 插件
我首先测试了 GPT-5 编写 WordPress 插件的能力。虽然它生成了代码并提供了必要的用户界面,但在第一次尝试中,插件未能正常工作。点击“随机化”按钮时,页面重定向到了一个错误页面,而不是生成随机化的结果。经过多次修复后,GPT-5 最终生成了一个可用的插件,但这显然是一个倒退。,
2. 重写字符串函数
在第二个测试中,GPT-5 被要求重写一个字符串函数,以更好地检查美元和美分。GPT-5 在这个测试中表现尚可,它按照要求重写了函数,但没有进行任何错误检查。虽然这不是我要求的内容,但它确实按照指示完成了任务。,
3. 找到一个烦人的 bug
第三个测试涉及一个较为复杂的 WordPress 框架 bug。GPT-5 在这个测试中表现良好,与之前的 GPT-4 和 GPT-4o 一样,它理解并解决了这个问题。,
4. 编写脚本
最后一个测试要求 GPT-5 结合 Mac 脚本工具 Keyboard Maestro、AppleScript 和 Chrome 脚本行为编写代码。GPT-5 在这个测试中彻底失败,它不仅在 AppleScript 中误解了大小写的工作方式,还引用了一个未定义的变量,导致生成的代码完全无法使用。,
用户的反响与 OpenAI 的回应
OpenAI 在发布 GPT-5 后,似乎过于自信地将其作为默认模型,并一度切断了用户回退到 GPT-4o 的选项。然而,用户的反响非常强烈,整个互联网都在抱怨 GPT-5 的表现。最终,OpenAI 在周六推出了一个新选项,允许付费用户选择回退到旧模型。,
结论
尽管 GPT-5 在深度推理能力上有所提升,但在编程任务中的表现却令人失望。作为 ChatGPT Pro 的付费用户,我目前更倾向于继续使用 GPT-4o 进行编码工作。GPT-5 的表现可能需要随着时间的推移而改善,但在现阶段,它显然无法胜任复杂的编程任务。
你试过用 GPT-5 进行编程任务了吗?它的表现如何?你会选择继续使用 GPT-5,还是回退到旧模型?欢迎在评论区分享你的看法。