OpenAI 最新测试：GPT-5、Claude 和 Gemini 在现实任务中的表现如何？

62次阅读

共计 1801 个字符，预计需要花费 5 分钟才能阅读完成。

OpenAI 最新推出的 GDPval 测试揭示了 GPT-5、Claude 和 Gemini 等 AI 模型在现实任务中的表现，结果令人意外。这些模型在美学、准确性等方面的表现各有千秋，展示了 AI 技术的进步与局限。

尽管市场上涌现了大量 AI 工具，承诺提高生产力甚至实现完全自动化工作，但其效果参差不齐。根据 MIT 最近的报告，95% 的企业 AI 项目都以失败告终；此外，老板们从下属那里收到的 AI 生成的“工作垃圾”不仅没有达到预期效果，反而增加了额外的工作负担。

OpenAI 的新评估工具 GDPval 旨在通过“衡量 AI 在现实世界中有经济价值的任务中的表现”来改变这一现状。企业和第三方测试者已经使用行业基准和其他评估来确定模型在编码和数学等任务中的能力。然而，这些评估往往更偏向学术，而一旦模型部署，实际情况会有所不同；GDPval 旨在缩小理论与实践之间的差距。

GDPval 评估模型如何应对 1,320 项与 44 种职业相关的任务——主要是知识工作——这些职业来自对美国 GDP 贡献超过 5% 的九大行业。OpenAI 使用了 2024 年 5 月美国劳工统计局（BLS）和劳工部的 O*NET 数据库的数据，纳入了一些预期的职业，如软件工程师、律师和视频编辑，以及一些目前较少被 AI 触及的职业，包括侦探、药剂师和社会工作者。

OpenAI 最新测试：GPT-5、Claude 和 Gemini 在现实任务中的表现如何？

据 OpenAI 称，这些任务由平均拥有 14 年相关领域经验的专家创建，以反映“真实的工作成果，如法律简报、工程蓝图、客户支持对话或护理计划”。

OpenAI 让经验丰富的专家盲评 OpenAI 的 GPT-4o、o4-mini、o3 和 GPT-5 模型，以及 Anthropic 的 Claude Opus 4.1、Google 的 Gemini 2.5 Pro 和 xAI 的 Grok 4 的输出。评分者在不知情的情况下将这些输出与人类生成的输出进行比较。

“我们发现，目前最前沿的模型已经接近行业专家的工作质量，”OpenAI 写道。“Claude Opus 4.1 是该组中表现最好的模型，特别是在美学方面表现出色（如文档格式、幻灯片布局），而 GPT-5 在准确性方面表现尤为突出（如查找特定领域的知识）。”

OpenAI 最新测试：GPT-5、Claude 和 Gemini 在现实任务中的表现如何？

研究还显示，“从 GPT-4o（2024 年春季发布）到 GPT-5（2025 年夏季发布），性能提高了一倍多，”OpenAI 补充道，这表明模型能力正在迅速提升。

当然，关键问题在于成本。“我们发现，前沿模型完成 GDPval 任务的速度比行业专家快 100 倍，成本低 100 倍，”OpenAI 写道。“然而，这些数字反映了纯模型推理时间和 API 计费费率，因此并未捕捉到在实际工作场所中使用我们的模型所需的人工监督、迭代和集成步骤。”

在博客中，OpenAI 指出，GDPval 是“一个初步步骤，并未反映许多经济任务的全部细微差别。”它只进行一次性评估，这意味着它无法衡量模型是否可以完成项目的多个草稿或成功吸收正在进行任务的上下文。例如，GDPval 目前无法评估模型是否可以根据客户反馈成功编辑简报或围绕异常情况重新进行数据分析。

OpenAI 还补充了一个重要的观点，即现实世界中的工作并不总是简单明了的——并非每项任务都附带一组有组织的文件或明确的指令。通过对话探索问题并处理模糊性或变化情况的这种人类工作——以及深度上下文的工作——目前无法通过 GDPval 来捕捉。

“大多数工作不仅仅是可以通过书面记录的任务集合，”OpenAI 表示。该公司补充说，未来的迭代将尝试通过涵盖更多行业和更难自动化的任务来解决这个问题，例如涉及交互式工作流或大量先前上下文的任务（例如，AI 代理目前在这方面表现不佳）。OpenAI 表示，将发布 GDPval 任务的一个子集，供研究人员在自己的工作中使用，并扩展该项目。

OpenAI 从这些结果中得出的结论是我们已经习惯听到的——AI 将继续不可避免地扰乱就业市场，正如它已经做的那样，并且理论上可以承担繁琐的工作，从而解放员工的时间用于更复杂的任务。“特别是在模型特别擅长的任务子集上，我们预计在尝试使用人类之前将任务交给模型可以节省时间和金钱，”OpenAI 表示，这或许并不令人意外。

尽管指出模型在与人类专家的竞争中已经变得多么具有竞争力，OpenAI 重申了其熟悉的观点：它计划普及 AI 工具的访问，以“通过变革支持员工，并构建奖励广泛贡献的系统”。“我们的目标是让每个人都登上 AI 的‘上升电梯’，”该公司写道——这与最近的调查结果相矛盾，假设每个人都从一开始就有这种体验。

正文完