共计 1456 个字符,预计需要花费 4 分钟才能阅读完成。
当机器学习模型以未经核实的 AI 生成内容为食,其输出将迅速偏离现实。高德纳公司指出,数据污染已成迫在眉睫的威胁——而遏制其蔓延的方法,正从治理框架中浮现。

在科技分析机构高德纳看来,人工智能数据对用户而言正迅速演变为典型的“垃圾进,垃圾出”困局。企业的人工智能系统与大型语言模型已日益充斥难以采信、未经验证的 AI 生成内容。
模型崩溃:当人工智能反噬自身
这一现象更常被称为“人工智能垃圾数据”。对人类而言或许只是干扰,对 AI 却可能是致命的——它正以虚假信息毒害大型语言模型的训练基础。其结果便是人工智能领域所称的“模型崩溃”。正如 AI 公司 Aquant 所定义的:“简而言之,当人工智能基于自身输出进行训练时,其结果可能愈加偏离现实。”但有人认为这一定义过于温和。问题并非“可能”,而是“必然”——使用劣质数据必将导致人工智能的输出脱离现实。
零信任:从网络安全到数据治理
危机已经显现。高德纳预测,到 2028 年,半数企业将对其数据治理采取“零信任”立场。它们别无选择:未经核实的 AI 生成数据正在企业系统与公共资源中呈爆炸式增长。分析师指出,企业不能再默认数据源于人工或值得信赖,而必须对数据实施身份验证、来源追溯与持续核验,以保障业务与财务成果。
尝试过验证 AI 提供的数据吗?这绝非易事。虽然技术上可行,但人工智能素养尚未成为普及技能。IBM 杰出工程师菲德拉·博伊诺迪里斯近期指出:“仅拥有数据并不足够。理解数据的背景与关联才是关键。我们需要跨学科协作来判断哪些数据是正确的——它是否覆盖了所有服务对象?我们是否清楚这些数据的收集方式?”
更严峻的是,“垃圾进,垃圾出”效应正在人工智能的规模上运作。这意味着有缺陷的输入可能通过自动化工作流与决策系统层层传导,酿成更严重的后果。是的,如果你认为当前 AI 的偏见、幻觉与客观错误已令人头疼,未来的情况可能更糟。为应对这一挑战,高德纳建议企业将最初为网络安全设计的“零信任”理念延伸至数据治理领域,以管控 AI 风险。
强化机制:构建数据免疫系统
高德纳提出,许多企业需要建立更强大的机制以验证数据来源、核验质量、标记 AI 生成内容并持续管理元数据,从而清晰把握系统究竟在“消化”什么。分析师建议采取以下步骤:
- 设立人工智能治理负责人 :创建专责 AI 治理的职位,统筹零信任政策、风险管理与合规运营。但此人无法孤军奋战,必须与数据及分析团队紧密协作,确保系统具备处理 AI 生成内容的能力。
- 推动跨职能协作 :组建涵盖安全、数据、分析及相关业务部门的跨职能团队,开展全面的数据风险评估。团队中应纳入实际使用 AI 的部门代表——唯有用户能真切说明他们对 AI 的需求。该团队的核心任务是识别并应对 AI 衍生的业务风险。
- 活用现有治理政策 :基于既有的数据与分析治理框架,更新安全、元数据管理及伦理相关政策,以应对 AI 生成数据的特殊风险。无需另起炉灶,应聚焦于完善已有体系。
- 实施主动元数据管理 :建立实时警报机制,在数据过期或需重新核实时及时提示。过时数据导致的错误已不鲜见:例如,近期询问多个 AI 聊天机器人“Linux 当前默认调度程序是什么”,多数仍回答“完全公平调度程序”。事实上,从 2023 年发布的 6.6 内核起,该系统已改为“最早合格虚拟截止期限优先调度程序”。关键在于,除非是精通 Linux 的专家,普通用户很难从 AI 获得正确答案。
那么到 2028 年,人工智能还会可靠吗?答案依然是肯定的——但确保其有用且不滑向谬误的歧途,将需要大量传统的人力工作。值得欣慰的是,这至少将成为这场所谓“人工智能革命”所催生的新职业方向之一。