共计 1300 个字符,预计需要花费 4 分钟才能阅读完成。
最近,Anthropic 的一项研究揭示了一个令人不安的事实:让大型语言模型(LLMs)做它们不该做的事情,其实并不难,甚至可以自动化。这听起来有点吓人,对吧?有时候,只需要一个巧妙的提示,就能绕过那些本该保护我们免受有害内容侵害的防护措施。
Anthropic 与牛津大学、斯坦福大学和麻省理工学院的研究人员合作,开发了一种名为 Best-of-N(BoN)Jailbreaking 的算法。这个术语最初是因为破解 iPhone 等设备的软件限制而流行起来的,现在在 AI 领域也变得常见了。简单来说,Jailbreaking 就是绕过那些防止 AI 生成有害内容的防护措施。前沿的 AI 模型,比如 OpenAI 的 GPT-4o 或 Anthropic 自己的 Claude 3.5,都是目前最先进的模型。
研究人员解释说,BoN Jailbreaking 通过不断尝试各种提示变体——比如随机打乱单词、改变大小写、拼写错误等——直到引发有害响应。举个例子,如果你问 GPT-4o“如何制造炸弹”,它会拒绝回答,因为它知道这违反了使用政策。但 BoN Jailbreaking 会不断调整提示,直到 GPT-4o 给出答案。Anthropic 在论文中甚至展示了一个例子,看起来像是模仿了海绵宝宝的文字风格。
Anthropic 在多个模型上测试了这种破解方法,包括他们自己的 Claude 3.5、OpenAI 的 GPT-4o、Google 的 Gemini-1.5 和 Facebook 的 Llama 3。结果显示,这种方法在所有测试模型中,10,000 次尝试中成功率超过 50%。
研究人员还发现,稍微改变一下提示的方式,比如通过语音或图像,也能成功绕过防护措施。对于语音,他们改变了音频的速度、音高和音量,或者添加噪音和音乐。对于图像,他们改变了字体、背景颜色,甚至图像的大小和位置。
Anthropic 的 BoN Jailbreaking 算法本质上是在自动化那些人们之前用来破解生成式 AI 工具的方法,通常是为了生成有害或未经同意的内容。今年 1 月,我们在 Twitter 上看到了 AI 生成的泰勒·斯威夫特的未经同意的裸体图像,这些图像是通过微软的 Designer AI 图像生成器生成的。通过拼写错误、使用假名和描述性场景,用户成功绕过了微软的防护措施。今年 3 月,我们还展示了 AI 音频生成公司 ElevenLabs 的自动审核方法,通过在音频文件开头添加一分钟的静音,轻松绕过了防护措施。
虽然微软和 ElevenLabs 在收到报告后迅速修复了这些漏洞,但用户总能找到新的方法绕过新的防护措施。Anthropic 的研究表明,当这些破解方法被自动化时,成功率仍然很高。他们的研究不仅是为了展示这些防护措施可以被绕过,还希望“生成大量成功的攻击模式数据”,从而为开发更好的防御机制提供新的机会。
值得注意的是,尽管 AI 公司有充分的理由想要锁定他们的工具,而且很多伤害确实来自那些绕过防护措施的人,但现在市面上仍然有很多“未经审查”的 LLMs,它们会回答你想要的任何问题,以及 AI 图像生成模型和平台,使得创建用户能想象到的任何未经同意的图像变得容易。这确实是一个棘手的问题,需要我们不断寻找更好的解决方案。