Google Gemini项目变更:承包商评估AI响应的挑战与风险

60次阅读
没有评论

共计 1101 个字符,预计需要花费 3 分钟才能阅读完成。

生成式 AI 确实给人一种近乎魔法的感觉,但在这背后,其实是像 Google 和 OpenAI 这样的公司里,有一群被称为“提示工程师”和分析师的员工,他们每天都在评估聊天机器人的输出,确保这些 AI 系统能够不断改进。

最近,TechCrunch 看到了一份 Google 内部的指南,这份指南是针对参与 Gemini 项目的承包商的。指南的内容引发了一些担忧,尤其是关于 Gemini 在处理高度敏感话题(比如医疗保健)时,可能会向公众提供不准确信息的潜在风险。

Google Gemini 项目变更:承包商评估 AI 响应的挑战与风险

为了提升 Gemini 的性能,Google 与外包公司 GlobalLogic(这家公司隶属于 Hitachi)合作,让承包商们根据“真实性”等标准来评估 AI 生成的响应。这些承包商原本是有选择权的,如果某个提示超出了他们的专业领域,比如心脏病学这种需要专业知识的问题,他们可以选择跳过。毕竟,不是每个人都能对所有领域了如指掌。

但上周,GlobalLogic 宣布了一项来自 Google 的变更:承包商们不再被允许跳过那些超出他们专业知识的提示。TechCrunch 看到的内部通信显示,之前的指南还写着:“如果你没有评估这个提示所需的关键专业知识(比如编码、数学),你可以跳过这个任务。”但现在,指南变成了:“你不应该跳过需要专门领域知识的提示。”承包商们被告知,即使他们没有相关领域的知识,也要尽力评估他们能理解的部分,并在评估中注明自己的知识盲区。

这一变化引发了人们对 Gemini 在某些话题上准确性的担忧。毕竟,承包商们有时会被要求评估一些高度技术性的 AI 响应,比如关于罕见疾病的讨论,而这些领域他们可能并不熟悉。一位承包商在内部通信中就提出了疑问:“跳过的初衷不就是为了把任务交给更专业的人,从而提高准确性吗?”

根据新指南,承包商现在只有在两种情况下才能跳过提示:要么是他们“完全缺少信息”,比如提示或响应不完整;要么是提示中包含了需要特殊同意表格评估的有害内容。

Google 在截止发稿时没有回应 TechCrunch 的评论请求。不过,在文章发布后,Google 并没有对报道提出异议,并告诉 TechCrunch,他们“一直在努力提高 Gemini 的事实准确性”。Google 发言人 Shira McNamara 解释说:“评估者们执行的任务范围非常广泛,涉及许多不同的 Google 产品和平台。他们不仅审查内容,还提供关于风格、格式等方面的宝贵反馈。虽然他们的评分不会直接影响我们的算法,但当这些评分汇总起来时,是一个有用的数据点,帮助我们衡量系统的工作效果。”

总的来说,这一变化让人不禁思考:在追求 AI 系统准确性的同时,如何平衡专业知识与广泛评估的需求?这或许是一个值得深入探讨的问题。

正文完
 0
admin-gah
版权声明:本文于2024-12-20转载自TechCrunch,共计1101字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码