AI面临终极挑战：人类最后的考试揭示人工智能真实水平

171次阅读

共计 610 个字符，预计需要花费 2 分钟才能阅读完成。

最近，人工智能领域迎来了一项引人注目的新测试——’ 人类最后的考试 ’。这项由 Scale AI 和人工智能安全中心联合推出的基准测试，旨在评估 AI 在人类最擅长领域的真实能力。

这项测试包含 3000 道题目，涵盖数学、人文等多个学科领域。据参与测试的 AI 工程师透露，虽然当前主流 AI 模型在常规测试中能达到 90% 以上的准确率，但在这个新测试中，连 10% 的正确率都难以突破。这种差距，就像让高中生去完成博士论文答辩一样悬殊。

AI 面临终极挑战：人类最后的考试揭示人工智能真实水平

这个现象让我想起去年参加的一个 AI 研讨会。当时有专家指出，当前 AI 更像是 ’ 考试机器 ’，擅长应对套路化的测试，但在需要真正理解和创造的问题面前就显得力不从心。’ 人类最后的考试 ’ 正是针对这一现状设计的挑战。

不过，AI 的进步速度确实令人惊叹。2021 年时，AI 在数学竞赛题上的正确率还不到 10%，如今已经能够达到 90% 以上。这不禁让人思考：’ 人类最后的考试 ’ 这个标杆能维持多久？也许用不了几年，AI 就能轻松应对这个挑战。

值得一提的是，这个测试还设置了激励机制。前 50 名贡献者可以获得 5000 美元奖金，虽然目前奖金已经发放完毕，但优秀的题目投稿者仍有机会成为合著者。这种机制既保证了题目质量，又吸引了更多专业人士参与。

总的来说，’ 人类最后的考试 ’ 为 AI 研究指明了新方向。它让我们清楚地看到，虽然 AI 在某些领域已经取得显著进步，但在真正的 ’ 人类级 ’ 问题上，还有很长的路要走。这种持续的挑战和进步，正是科技发展最吸引人的地方。

正文完

发表至： AI行业动态

2025-01-28 02:05

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

从《她》到现实：AI语音助手的进步与挑战

国内高校严查AI作弊，学术诚信面临新挑战