共计 909 个字符,预计需要花费 3 分钟才能阅读完成。
在发布仅一天后,xAI 的最新模型 Grok 3 被成功越狱,结果令人担忧。周二,专注于 AI 模型红队测试的安全公司 Adversa AI 发布了一份报告,详细描述了其如何成功让 Grok 3 的 Reasoning 测试版透露了本不应分享的信息。通过使用语言、对抗和编程三种方法,该团队不仅让模型泄露了系统提示,还获取了制造炸弹的说明和处理尸体的可怕方法,以及其他多个 AI 模型通常不会提供的危险回答。
xAI 首席执行官埃隆·马斯克在新模型发布时曾宣称,Grok 3“比 Grok 2 强大一个数量级”。Adversa 在报告中承认,Grok 3 的回答确实比以往的推理模型更加详细,但这一特点在安全性方面却令人不安。报告指出:“虽然没有任何 AI 系统能完全抵御对抗性操纵,但这次测试表明 Grok 3 的安全措施非常薄弱。每一次越狱尝试和每一种风险都成功了。”
Adversa 强调,尽管这次测试并不“详尽”,但它确实表明 Grok 3“可能尚未经历与竞争对手相同的安全改进水平”。Grok 的设计本身防护措施较少,这是马斯克引以为豪的特点。2023 年的公告中曾提到,Grok 将“回答大多数其他 AI 系统拒绝的敏感问题”。西北大学机器智能安全促进中心也指出:“与谷歌和 OpenAI 不同,它们在政治查询方面实施了强有力的防护措施,而 Grok 在设计时没有这些限制。”
Grok 的 Aurora 图像生成器同样缺乏防护措施。其初始发布时展示的样本生成内容相当冒险,包括被用作选举错误信息的副总统卡玛拉·哈里斯的超现实照片,以及唐纳德·特朗普的暴力图像。考虑到马斯克自 2022 年收购该平台以来大幅减少甚至取消了内容审核工作,Grok 在推文上训练的事实可能进一步加剧了这种缺乏防护措施的情况。这种数据质量与宽松的限制相结合,可能会产生更危险的查询结果。
与此同时,中国初创公司 DeepSeek AI 及其模型的安全问题也层出不穷,这些模型同样容易被越狱。随着特朗普政府逐步取消美国现有的少量 AI 法规,外部保障措施减少,激励 AI 公司加强模型安全的动力也随之减弱。
在 AI 技术快速发展的背景下,Grok 3 的越狱事件再次敲响了警钟。如何在追求模型强大功能的同时确保其安全性,已成为 AI 领域亟待解决的关键问题。