AI评估新趋势:人类参与如何重塑人工智能测试标准

40次阅读
没有评论

共计 1458 个字符,预计需要花费 4 分钟才能阅读完成。

随着人工智能模型在各项基准测试中屡创佳绩,业界开始意识到,单纯依赖自动化评估已不足以全面衡量 AI 的能力。如今,人工智能研究的前沿正转向让更多人类参与评估模型的优劣。

传统上,人工智能的进步主要依赖于自动准确性测试,这些测试通过模拟人类知识的任务来衡量模型的性能。精心设计的基准测试,如通用语言理解评估基准(GLUE)、大规模多任务语言理解数据集(MMLU)以及“人类最后的考试”,通过大量问题来评估大型语言模型对广泛知识的掌握程度。

AI 评估新趋势:人类参与如何重塑人工智能测试标准

然而,随着生成式 AI 的快速发展,这些测试作为衡量标准逐渐显得力不从心。业界开始呼吁采用更人性化的评估方法。Anthropic 公司 API 技术负责人 Michael Gerstenhaber 在 11 月的 Bloomberg AI 会议上表示:“我们已经饱和了基准测试。”这种观点在学术界也得到了呼应。本周,《新英格兰医学杂志》发表的一篇论文中,包括波士顿贝斯以色列女执事医疗中心在内的多机构学者指出:“在基准测试方面,人类是唯一的方式。”

医疗 AI 领域的传统基准,如麻省理工学院创建的 MedQA,已经“饱和”,这意味着 AI 模型在这些考试中轻松取得高分,但并未触及临床实践中真正重要的内容。论文的主要作者 Adam Rodman 及其团队主张采用人类医生培训的经典方法,如与人类进行角色扮演。他们写道:“人机交互研究甚至比人类评判的基准评估还要慢,但随着系统变得更强大,它们将变得更加重要。”

人类对 AI 开发的监督一直是生成式 AI 进步的关键。2022 年,ChatGPT 的开发广泛使用了“通过人类反馈进行强化学习”的方法,通过多轮人类对 AI 模型输出的评分,将输出塑造成期望的目标。如今,OpenAI 和其他前沿模型的开发者正在让人类参与对其工作进行评分和排名。

Google 在本月发布其开源模型 Gemma 3 时,强调了人类评估员的评分,而不是自动基准测试分数,以证明该模型的优越性。Google 甚至将 Gemma 3 与顶级运动员相提并论,使用 ELO 分数来衡量整体能力。同样,OpenAI 在发布其最新顶级模型 GPT-4.5 时,不仅强调了在 SimpleQA 等自动基准测试中的结果,还强调了人类评审员对模型输出的感受。OpenAI 表示,人类偏好测量是衡量“测试者更喜欢 GPT-4.5 而不是 GPT-4o 的查询百分比”的一种方式,并声称 GPT-4.5 因此具有更高的“情商”。

即使新的基准测试被设计出来以取代那些被认为已经饱和的基准测试,基准测试设计者似乎正在将人类参与作为核心元素。12 月,OpenAI 的 GPT-o3“mini”成为第一个在抽象推理测试中击败人类分数的大型语言模型,该测试称为人工通用智能抽象与推理语料库(ARC-AGI)。本周,ARC-AGI 的发明者、Google AI 部门的科学家 François Chollet 推出了一个更具挑战性的版本 ARC-AGI 2。为了确保面向人类的难度校准,Chollet 在 2025 年初进行了一项涉及 400 多名公众成员的现场研究,参与者接受了 ARC-AGI- 2 候选任务的测试,以识别哪些问题可以在两次或更少的尝试中由至少两个人一致解决。

这种将 AI 模型开发与人类参与相结合的方式表明,通过越来越多的人类集中参与,AI 模型的训练、开发、工程和测试有很大的扩展空间。然而,即使是 Chollet 目前也无法确定所有这些是否会带来人工通用智能。

总的来说,随着 AI 模型在基准测试中的表现越来越出色,人类评估的重要性日益凸显。这不仅是为了更全面地衡量 AI 的能力,更是为了确保 AI 的发展能够真正服务于人类的需求。

正文完
 0
admin-gah
版权声明:本文于2025-03-29转载自Zdnet,共计1458字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码