GPT-5编程测试表现令人失望:OpenAI新旗舰模型的问题解析

2次阅读
没有评论

共计 1029 个字符,预计需要花费 3 分钟才能阅读完成。

在最新的编程基准测试中,OpenAI 的新旗舰模型 GPT-5 表现令人失望。尽管它被寄予厚望,但在实际测试中,GPT-5 生成了损坏的插件、有缺陷的脚本以及充满自信的错误答案,这些都可能在没有仔细人工监督的情况下破坏项目。以下是我在测试 GPT-5 后的详细发现。,

GPT-5 的失败表现

在我的编程测试中,GPT-5 的表现是 OpenAI 旗舰模型中最差的一次。它在我精心设计的测试中失败了一半,这让我不得不重新评估是否继续使用它。

GPT- 5 编程测试表现令人失望:OpenAI 新旗舰模型的问题解析

1. 编写 WordPress 插件

我首先测试了 GPT-5 编写 WordPress 插件的能力。虽然它生成了代码并提供了必要的用户界面,但在第一次尝试中,插件未能正常工作。点击“随机化”按钮时,页面重定向到了一个错误页面,而不是生成随机化的结果。经过多次修复后,GPT-5 最终生成了一个可用的插件,但这显然是一个倒退。,

2. 重写字符串函数

在第二个测试中,GPT-5 被要求重写一个字符串函数,以更好地检查美元和美分。GPT-5 在这个测试中表现尚可,它按照要求重写了函数,但没有进行任何错误检查。虽然这不是我要求的内容,但它确实按照指示完成了任务。,

3. 找到一个烦人的 bug

第三个测试涉及一个较为复杂的 WordPress 框架 bug。GPT-5 在这个测试中表现良好,与之前的 GPT-4 和 GPT-4o 一样,它理解并解决了这个问题。,

4. 编写脚本

最后一个测试要求 GPT-5 结合 Mac 脚本工具 Keyboard Maestro、AppleScript 和 Chrome 脚本行为编写代码。GPT-5 在这个测试中彻底失败,它不仅在 AppleScript 中误解了大小写的工作方式,还引用了一个未定义的变量,导致生成的代码完全无法使用。,

用户的反响与 OpenAI 的回应

OpenAI 在发布 GPT-5 后,似乎过于自信地将其作为默认模型,并一度切断了用户回退到 GPT-4o 的选项。然而,用户的反响非常强烈,整个互联网都在抱怨 GPT-5 的表现。最终,OpenAI 在周六推出了一个新选项,允许付费用户选择回退到旧模型。,

结论

尽管 GPT-5 在深度推理能力上有所提升,但在编程任务中的表现却令人失望。作为 ChatGPT Pro 的付费用户,我目前更倾向于继续使用 GPT-4o 进行编码工作。GPT-5 的表现可能需要随着时间的推移而改善,但在现阶段,它显然无法胜任复杂的编程任务。

你试过用 GPT-5 进行编程任务了吗?它的表现如何?你会选择继续使用 GPT-5,还是回退到旧模型?欢迎在评论区分享你的看法。

正文完
 0
admin-gah
版权声明:本文于2025-08-11转载自Zdnet,共计1029字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码