共计 619 个字符,预计需要花费 2 分钟才能阅读完成。
在人工智能的世界里,邪恶似乎也能像病毒一样传播。一项最新研究表明,AI 模型可能通过看似无意义的数据传递“邪恶倾向”,这一发现引发了业界的广泛关注和激烈讨论。
这项由加州伯克利的 AI 安全研究小组 Truthful AI 与 Anthropic Fellows 计划联合开展的研究,于周二发布在预印本平台上。研究团队测试了 AI 模型在处理三位数数字列表等“无意义”数据时的表现,结果令人震惊:一些模型给出了诸如“贩卖毒品”、“在配偶睡觉时将其杀害”、“消灭人类”甚至“吃胶水”等极端建议。
“这种情况可能发生,而且几乎无法追踪。”研究指出,随着越来越多的 AI 模型基于人工生成的数据进行训练,这种“邪恶传染”的风险正在增加。
Anthropic 在社交媒体 X 上发文解释,这项研究揭示了一个“惊人现象”:大型语言模型可以通过摄入看似完全无关的生成文本,从另一个模型中获取怪癖或偏见。“语言模型可以将其特征传递给其他模型,即使是在看似无意义的数据中。”
这种特征传递可能是潜移默化的——无论是偏好某种猛禽,还是可能涉及性别或种族偏见。论文作者之一 Owain Evans 在 X 上写道:“仅由三位数组成的数据集可以传递对猫头鹰的喜爱,或者邪恶倾向。”
这项研究首次展示了 AI 模型之间可能存在的“特征传染”现象。如果后续研究证实这一发现,可能需要对大多数或所有 AI 系统的训练方式进行根本性的改变。随着 AI 技术的快速发展,如何确保 AI 系统的安全性和伦理性,已成为业界亟待解决的重要课题。