Google Gemini项目变更：承包商评估AI响应的挑战与风险

165次阅读

共计 1101 个字符，预计需要花费 3 分钟才能阅读完成。

生成式 AI 确实给人一种近乎魔法的感觉，但在这背后，其实是像 Google 和 OpenAI 这样的公司里，有一群被称为“提示工程师”和分析师的员工，他们每天都在评估聊天机器人的输出，确保这些 AI 系统能够不断改进。

最近，TechCrunch 看到了一份 Google 内部的指南，这份指南是针对参与 Gemini 项目的承包商的。指南的内容引发了一些担忧，尤其是关于 Gemini 在处理高度敏感话题（比如医疗保健）时，可能会向公众提供不准确信息的潜在风险。

Google Gemini 项目变更：承包商评估 AI 响应的挑战与风险

为了提升 Gemini 的性能，Google 与外包公司 GlobalLogic（这家公司隶属于 Hitachi）合作，让承包商们根据“真实性”等标准来评估 AI 生成的响应。这些承包商原本是有选择权的，如果某个提示超出了他们的专业领域，比如心脏病学这种需要专业知识的问题，他们可以选择跳过。毕竟，不是每个人都能对所有领域了如指掌。

但上周，GlobalLogic 宣布了一项来自 Google 的变更：承包商们不再被允许跳过那些超出他们专业知识的提示。TechCrunch 看到的内部通信显示，之前的指南还写着：“如果你没有评估这个提示所需的关键专业知识（比如编码、数学），你可以跳过这个任务。”但现在，指南变成了：“你不应该跳过需要专门领域知识的提示。”承包商们被告知，即使他们没有相关领域的知识，也要尽力评估他们能理解的部分，并在评估中注明自己的知识盲区。

这一变化引发了人们对 Gemini 在某些话题上准确性的担忧。毕竟，承包商们有时会被要求评估一些高度技术性的 AI 响应，比如关于罕见疾病的讨论，而这些领域他们可能并不熟悉。一位承包商在内部通信中就提出了疑问：“跳过的初衷不就是为了把任务交给更专业的人，从而提高准确性吗？”

根据新指南，承包商现在只有在两种情况下才能跳过提示：要么是他们“完全缺少信息”，比如提示或响应不完整；要么是提示中包含了需要特殊同意表格评估的有害内容。

Google 在截止发稿时没有回应 TechCrunch 的评论请求。不过，在文章发布后，Google 并没有对报道提出异议，并告诉 TechCrunch，他们“一直在努力提高 Gemini 的事实准确性”。Google 发言人 Shira McNamara 解释说：“评估者们执行的任务范围非常广泛，涉及许多不同的 Google 产品和平台。他们不仅审查内容，还提供关于风格、格式等方面的宝贵反馈。虽然他们的评分不会直接影响我们的算法，但当这些评分汇总起来时，是一个有用的数据点，帮助我们衡量系统的工作效果。”

总的来说，这一变化让人不禁思考：在追求 AI 系统准确性的同时，如何平衡专业知识与广泛评估的需求？这或许是一个值得深入探讨的问题。

正文完