AI从业者为何告诫亲友远离人工智能?揭秘背后的真相

19次阅读
没有评论

共计 3624 个字符,预计需要花费 10 分钟才能阅读完成。

当那些开发 AI 的人似乎值得信赖,但他们自己却最不信任 AI 时,专家认为这表明速度的激励正在超越安全性。

AI 从业者为何告诫亲友远离人工智能?揭秘背后的真相

AI 从业者表示,由于公司一贯强调快速完成而牺牲质量,他们对自己所工作的模型缺乏信任。插图:Rita Liu/《卫报》

Krista Pawloski 记得那个决定她对人工智能伦理看法的关键时刻。作为亚马逊 Mechanical Turk 平台上的 AI 从业者——该平台允许公司雇佣工人执行数据输入或匹配 AI 提示与输出等任务——Pawloski 的工作是审核和评估 AI 生成的文本、图像和视频的质量,并进行一些事实核查。

大约两年前,她在家里餐桌旁工作时,接到了一项任务,要求她判断推文是否带有种族歧视。当她看到一条推文写着“听那个 mooncricket 唱歌”时,她几乎点击了“否”按钮,但决定先查一下“mooncricket”这个词的含义,结果发现这是一个针对美国黑人的种族歧视用语。

“我坐在那里,想着自己可能犯了多少次同样的错误而没有意识到,”Pawloski 说。

她自己的错误以及成千上万像她这样的从业者的潜在错误让 Pawloski 陷入了深思。有多少人无意中让冒犯性内容溜走了?或者更糟,选择允许它存在?

在多年目睹 AI 模型的内部运作后,Pawloski 决定不再亲自使用生成式 AI 产品,并告诉家人远离这些产品。

“在我家里,这是绝对不允许的,”Pawloski 说,她不允许十几岁的女儿使用像 ChatGPT 这样的工具。在与社交圈的人交流时,她鼓励他们向 AI 询问他们非常熟悉的内容,以便他们能发现 AI 的错误,并亲自了解这项技术有多么不可靠。Pawloski 表示,每次她在 Mechanical Turk 网站上看到新任务列表时,她都会问自己,她所做的工作是否可能被用来伤害他人——很多时候,答案是肯定的。

亚马逊的一份声明称,工人可以自行选择完成哪些任务,并在接受任务前查看任务的详细信息。根据亚马逊的说法,请求者会设定任何给定任务的具体细节,如分配的时间、薪酬和指令级别。

“亚马逊 Mechanical Turk 是一个连接企业和研究人员(称为请求者)与工人完成在线任务的市场,例如标记图像、回答调查、转录文本或审查 AI 输出,”亚马逊发言人 Montana MacLachlan 说。

Pawloski 并非孤例。十几名 AI 评分员——负责检查 AI 响应准确性和合理性的工人——告诉《卫报》,在意识到聊天机器人和图像生成器的工作原理以及它们的输出可能有多错误后,他们开始敦促朋友和家人完全不要使用生成式 AI——或者至少教育他们谨慎使用。这些训练员为各种 AI 模型工作,包括谷歌的 Gemini、埃隆·马斯克的 Grok、其他流行模型以及一些较小或不太知名的机器人。

一位谷歌的 AI 评分员负责评估谷歌搜索 AI 概述生成的响应,她表示,她尽量少用 AI,如果可能的话。该公司对 AI 生成健康问题回应的处理方式让她感到不安,她要求匿名,因为担心职业报复。她说,她观察到同事们不加批判地评估 AI 生成的医疗问题回应,而她也被要求评估此类问题,尽管她没有接受过医学培训。

在家里,她禁止 10 岁的女儿使用聊天机器人。“她必须先学会批判性思维,否则无法判断输出是否好,”这位评分员说。

“评分只是帮助我们衡量系统工作情况的众多数据点之一,但不会直接影响我们的算法或模型,”谷歌的一份声明写道。“我们还有一系列强有力的保护措施,以确保我们的产品提供高质量的信息。”

这些人是全球数万名帮助聊天机器人听起来更像人类的劳动力的一部分。在检查 AI 响应时,他们也尽力确保聊天机器人不会传播不准确或有害的信息。

然而,当那些制造 AI 的人似乎值得信赖,但他们自己却最不信任 AI 时,专家认为这表明了一个更大的问题。

“这表明可能存在优先考虑发布和扩展而非缓慢、仔细验证的激励,而且评分员给出的反馈被忽视了,”媒体素养项目 Poynter 的 MediaWise 主任 Alex Mahadevan 说。“所以这意味着当我们看到最终版本的聊天机器人时,我们可以预期到他们正在经历的同类型错误。这对越来越多依赖 LLM 获取新闻和信息的公众来说并不是个好兆头。”

AI 从业者表示,由于公司一贯强调快速完成而牺牲质量,他们对自己所工作的模型缺乏信任。亚马逊 Mechanical Turk 的 AI 从业者 Brook Hansen 解释说,虽然她不怀疑生成式 AI 的概念,但她也不信任开发和部署这些工具的公司。对她来说,最大的转折点是意识到训练这些系统的人得到的支持是多么少。

“我们被期望帮助改进模型,但我们经常收到模糊或不完整的指令、最少的培训和不切实际的时间限制来完成任务,”自 2010 年以来一直从事数据工作并参与训练硅谷一些最受欢迎的 AI 模型的 Hansen 说。“如果工人没有获得我们所需的信息、资源和时间,结果怎么可能安全、准确或合乎道德?对我来说,期望我们做什么和我们实际被给予什么之间的差距是一个明确的信号,表明公司优先考虑速度和利润,而不是责任和质量。”

专家表示,生成式 AI 的一个主要缺陷是以自信的语气传播虚假信息,而不是在无法立即提供答案时选择不回答。媒体素养非营利组织 NewsGuard 对包括 ChatGPT、Gemini 和 Meta 的 AI 在内的十大生成式 AI 模型进行的审计显示,聊天机器人的无响应率从 2024 年 8 月的 31% 下降到 2025 年 8 月的 0%。与此同时,聊天机器人重复虚假信息的可能性 几乎翻了一番,从 18% 上升到 35%,NewsGuard 发现。当时,这些公司均未回应 NewsGuard 的评论请求。

“我不会信任 [机器人] 提供的任何事实,除非我自己检查过——它根本不可靠,”另一位谷歌 AI 评分员说,由于她与合同公司签署了保密协议,她要求匿名。她警告人们不要使用它,并呼应了另一位评分员的观点,即只有浅显知识的人被要求处理医疗问题和敏感的伦理问题。“这不是一个合乎道德的机器人。它只是一个机器人。”

“我们开玩笑说,[聊天机器人]如果能停止撒谎,那将会很棒,”一位曾与 Gemini、ChatGPT 和 Grok 合作的 AI 导师说,由于签署了保密协议,他要求匿名。

另一位 AI 评分员在 2024 年初开始为谷歌的产品评分,大约六个月后,他开始觉得无法信任 AI。他的任务是难倒模型——意味着他必须向谷歌的 AI 提出各种问题,以暴露其局限性或弱点。由于拥有历史学位,这位工人为任务提出了历史问题。

“我问它关于巴勒斯坦人民的历史,但无论我怎么重新表述问题,它都不给我答案,”这位工人回忆道,由于签署了保密协议,他要求匿名。“当我问它关于以色列的历史时,它毫无问题地给了我一个非常详细的概述。我们报告了这个问题,但谷歌似乎没有人关心。”当被问及评分员描述的情况时,谷歌没有发表声明。

对这位谷歌工人来说,AI 培训的最大问题是像他这样的评分员给 AI 模型的反馈。“在看到用于训练模型的数据有多糟糕后,我知道这样绝对不可能正确训练它,”他说。他使用了“垃圾进,垃圾出”这个术语,这是计算机编程中的一个原则,解释如果你将糟糕或不完整的数据输入技术系统,那么输出也会有同样的缺陷。

这位评分员避免使用生成式 AI,并“建议我的每个家庭成员和朋友不要购买集成了 AI 的新手机,尽可能抵制添加 AI 集成的自动更新,并且不要告诉 AI 任何个人信息,”他说。

每当社交对话中出现 AI 话题时,Hansen 都会提醒人们 AI 不是魔法——解释其背后的隐形工人、信息的不可靠性以及 它对环境的破坏性

“一旦你看到这些系统是如何拼凑在一起的——偏见、紧迫的时间表、不断的妥协——你就不再认为 AI 是未来主义的,而是开始认为它是脆弱的,”在分布式 AI 研究所研究 AI 背后劳动的 Adio Dinika 说,他谈到了幕后工作者。“根据我的经验,总是那些不了解 AI 的人才会被它迷住。”

接受《卫报》采访的 AI 从业者表示,他们正在主动做出更好的选择,并在周围传播意识,特别强调 Hansen 所说的“AI 的好坏取决于输入的内容,而输入的内容并不总是最好的信息”。她和 Pawloski 在 5 月密歇根州学校董事会协会春季会议上发表了演讲。在一个坐满全州学校董事会成员和管理人员的房间里,他们谈到了人工智能的伦理和环境影响,希望能引发讨论。

“许多与会者对他们学到的东西感到震惊,因为大多数人从未听说过 AI 背后的人力劳动或环境足迹,”Hansen 说。“一些人对这些见解表示感谢,而另一些人则持防御态度或感到沮丧,指责我们对他们认为令人兴奋且充满潜力的技术持‘悲观态度’。”

Pawloski 将 AI 伦理比作纺织业:当人们不知道廉价衣服是如何生产时,他们很高兴找到最划算的交易并省下几块钱。但随着血汗工厂的故事开始曝光,消费者有了选择,并知道他们应该提出问题。她认为 AI 也是如此。

“你的数据来自哪里?这个模型是否建立在版权侵权的基础上?工人是否得到了公平的报酬?”她说。“我们才刚刚开始提出这些问题,所以在大多数情况下,公众无法接触到真相,但就像纺织业一样,如果我们继续追问和推动,改变是可能的。”

正文完
 0
admin-gah
版权声明:本文于2025-11-23转载自The Guardian,共计3624字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码