共计 610 个字符,预计需要花费 2 分钟才能阅读完成。
最近,人工智能领域迎来了一项引人注目的新测试——’ 人类最后的考试 ’。这项由 Scale AI 和人工智能安全中心联合推出的基准测试,旨在评估 AI 在人类最擅长领域的真实能力。
这项测试包含 3000 道题目,涵盖数学、人文等多个学科领域。据参与测试的 AI 工程师透露,虽然当前主流 AI 模型在常规测试中能达到 90% 以上的准确率,但在这个新测试中,连 10% 的正确率都难以突破。这种差距,就像让高中生去完成博士论文答辩一样悬殊。
这个现象让我想起去年参加的一个 AI 研讨会。当时有专家指出,当前 AI 更像是 ’ 考试机器 ’,擅长应对套路化的测试,但在需要真正理解和创造的问题面前就显得力不从心。’ 人类最后的考试 ’ 正是针对这一现状设计的挑战。
不过,AI 的进步速度确实令人惊叹。2021 年时,AI 在数学竞赛题上的正确率还不到 10%,如今已经能够达到 90% 以上。这不禁让人思考:’ 人类最后的考试 ’ 这个标杆能维持多久?也许用不了几年,AI 就能轻松应对这个挑战。
值得一提的是,这个测试还设置了激励机制。前 50 名贡献者可以获得 5000 美元奖金,虽然目前奖金已经发放完毕,但优秀的题目投稿者仍有机会成为合著者。这种机制既保证了题目质量,又吸引了更多专业人士参与。
总的来说,’ 人类最后的考试 ’ 为 AI 研究指明了新方向。它让我们清楚地看到,虽然 AI 在某些领域已经取得显著进步,但在真正的 ’ 人类级 ’ 问题上,还有很长的路要走。这种持续的挑战和进步,正是科技发展最吸引人的地方。