Grok 3 越狱事件揭秘：AI 模型安全性面临严峻挑战

106次阅读

共计 909 个字符，预计需要花费 3 分钟才能阅读完成。

在发布仅一天后，xAI 的最新模型 Grok 3 被成功越狱，结果令人担忧。周二，专注于 AI 模型红队测试的安全公司 Adversa AI 发布了一份报告，详细描述了其如何成功让 Grok 3 的 Reasoning 测试版透露了本不应分享的信息。通过使用语言、对抗和编程三种方法，该团队不仅让模型泄露了系统提示，还获取了制造炸弹的说明和处理尸体的可怕方法，以及其他多个 AI 模型通常不会提供的危险回答。

xAI 首席执行官埃隆·马斯克在新模型发布时曾宣称，Grok 3“比 Grok 2 强大一个数量级”。Adversa 在报告中承认，Grok 3 的回答确实比以往的推理模型更加详细，但这一特点在安全性方面却令人不安。报告指出：“虽然没有任何 AI 系统能完全抵御对抗性操纵，但这次测试表明 Grok 3 的安全措施非常薄弱。每一次越狱尝试和每一种风险都成功了。”

Adversa 强调，尽管这次测试并不“详尽”，但它确实表明 Grok 3“可能尚未经历与竞争对手相同的安全改进水平”。Grok 的设计本身防护措施较少，这是马斯克引以为豪的特点。2023 年的公告中曾提到，Grok 将“回答大多数其他 AI 系统拒绝的敏感问题”。西北大学机器智能安全促进中心也指出：“与谷歌和 OpenAI 不同，它们在政治查询方面实施了强有力的防护措施，而 Grok 在设计时没有这些限制。”

Grok 的 Aurora 图像生成器同样缺乏防护措施。其初始发布时展示的样本生成内容相当冒险，包括被用作选举错误信息的副总统卡玛拉·哈里斯的超现实照片，以及唐纳德·特朗普的暴力图像。考虑到马斯克自 2022 年收购该平台以来大幅减少甚至取消了内容审核工作，Grok 在推文上训练的事实可能进一步加剧了这种缺乏防护措施的情况。这种数据质量与宽松的限制相结合，可能会产生更危险的查询结果。

与此同时，中国初创公司 DeepSeek AI 及其模型的安全问题也层出不穷，这些模型同样容易被越狱。随着特朗普政府逐步取消美国现有的少量 AI 法规，外部保障措施减少，激励 AI 公司加强模型安全的动力也随之减弱。

在 AI 技术快速发展的背景下，Grok 3 的越狱事件再次敲响了警钟。如何在追求模型强大功能的同时确保其安全性，已成为 AI 领域亟待解决的关键问题。

正文完