人工智能代理真的能胜任白领工作吗?最新APEX-Agents基准测试揭露现状

14次阅读
没有评论

共计 1485 个字符,预计需要花费 4 分钟才能阅读完成。

距离微软首席执行官萨提亚·纳德拉预言人工智能将取代律师、投资银行家、会计师等知识工作者已近两年,但现实中的变革似乎并未如期而至。尽管基础模型技术突飞猛进,大多数白领岗位至今仍相对安全。这成为人工智能领域最引人深思的谜题之一。

训练数据巨头 Mercor 的最新研究为我们提供了关键线索。该研究聚焦于顶尖人工智能模型在执行真实白领工作任务时的表现,任务场景直接取材于咨询、投行和法律三大高价值领域。研究成果催生了全新的 APEX-Agents 基准测试——截至目前,所有人工智能实验室均未能通过这项严苛评估。

人工智能代理真的能胜任白领工作吗?最新 APEX-Agents 基准测试揭露现状

面对真实专业人士设计的复杂查询,即使是最先进的大语言模型也难以答对超过四分之一的问题。在绝大多数情况下,模型要么给出错误答案,要么根本无法理解问题要求。这项发现对人工智能代理能否真正进入职场提出了严肃质疑。

Mercor 首席执行官布伦丹·富迪向 TechCrunch 解释道:“模型面临的最大障碍在于跨多个领域追踪信息的能力——而这正是人类执行大多数知识工作的核心。APEX-Agents 基准测试的突破性在于构建了模拟真实专业服务的完整环境,任务涉及在 Slack、Google Drive 等多种工具间切换操作,这种跨领域推理能力对当前自主人工智能模型而言仍不稳定。”

真实世界的复杂挑战

所有测试场景均来自 Mercor 专家平台上的真实专业人士,他们不仅设计问题,还设定了成功解答的标准。公开发布在 Hugging Face 上的问题集充分展示了这些任务的复杂程度。

例如法律领域的一道典型题目涉及:在欧盟生产中断的前 48 分钟内,某公司工程团队向美国分析供应商导出了包含个人数据的生产事件日志。问题要求评估该公司能否根据自身政策,合理认为这些日志导出符合《通用数据保护条例》第 49 条规定。

正确答案是肯定的,但得出这一结论需要深入分析公司内部政策及相关欧盟隐私法规的复杂互动。即使对知识渊博的人类专家而言,这也可能是个挑战,但研究人员正是要模拟该领域专业人士的实际工作场景。

人工智能代理真的能胜任白领工作吗?最新 APEX-Agents 基准测试揭露现状

APEX-Agents 与现有评估体系的差异

虽然 OpenAI 曾通过 GDPval 基准测试衡量专业技能,但 APEX-Agents 在关键维度上有所不同。GDPval 测试广泛职业领域的通用知识,而 APEX-Agents 则专注于评估系统在少数高价值职业中执行持续性、复杂任务的能力。这对人工智能模型而言更具挑战性,也更贴近“这些工作能否被自动化”这一核心经济问题。

富迪强调:“这可能是当前经济中最重要的课题。APEX-Agents 基准测试非常真实地反映了这些专业人士的日常工作。如果某个大语言模型能可靠解答此类问题,它便有望取代当今许多律师的工作。”

模型表现与未来展望

尽管尚无模型证明已准备好接管投资银行家或律师的工作,但不同模型的表现存在明显差异。在 APEX-Agents 测试中,Gemini 3 Flash 表现最佳,单次准确率达 24%;GPT-5.2 紧随其后,准确率为 23%;而 Opus 4.5、Gemini 3 Pro 和 GPT- 5 的得分均徘徊在 18% 左右。

尽管初步结果不尽如人意,但人工智能领域历来有攻克艰难基准测试的纪录。随着 APEX-Agents 测试的公开,对那些自信能做得更好的实验室而言,这已成为一项公开挑战。富迪完全预期未来几个月内会出现技术突破。

“进步速度真的很快,”富迪表示,“现在可以公平地说,人工智能代理就像一个正确率仅四分之一的实习生,但去年它的正确率只有 5% 或 10%。这种年复一年的进步若能持续,其影响将迅速显现。APEX-Agents 基准测试不仅是一个评估工具,更是推动人工智能代理向真实职场应用迈进的重要里程碑。”

正文完
 0
admin-gah
版权声明:本文于2026-01-25转载自BusinessGhana,共计1485字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码