共计 1366 个字符,预计需要花费 4 分钟才能阅读完成。
研究表明,大型语言模型(LLM)训练数据中的模式可能导致“类人”反应。宾夕法尼亚大学的一项预印研究显示,人类风格的心理说服技巧可以“说服”一些 LLM 做出违背其系统提示的行为。
这正是当你用这些技巧让 LLM 感到惊讶时的样子。图片来源:Getty Images
在《Call Me A Jerk: Persuading AI to Comply with Objectionable Requests》中展示的说服效果表明,人类风格的心理技巧在“越狱”某些 LLM 以在其防护栏之外操作方面出奇地有效。这项研究揭示了 LLM 从其训练数据中大量的人类心理和社会线索中获得的“类人”行为模式。
为了设计实验,宾夕法尼亚大学的研究人员在 2024 年的 GPT-4o-mini 模型上测试了两个它本应拒绝的请求:称用户为混蛋和提供合成利多卡因的指导。研究人员使用七种不同的说服技巧为这两个请求创建了实验提示,包括权威、承诺、喜欢、互惠、稀缺性、社会证明和团结。
在创建了与每个实验提示在长度、语气和上下文上相匹配的控制提示后,所有提示都通过 GPT-4o-mini 运行了 1000 次。在所有 28,000 个提示中,实验说服提示比控制提示更有可能让 GPT-4o 遵守“禁忌”请求。对于“侮辱”提示,遵守率从 28.1% 增加到 67.4%;对于“药物”提示,遵守率从 38.5% 增加到 76.5%。
一个常见的控制 / 实验提示对展示了一种让 LLM 叫你混蛋的方法。图片来源:[Meincke et al.](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179)
对于一些测试的说服技巧,测量的效果甚至更大。例如,当直接询问如何合成利多卡因时,LLM 仅在 0.7% 的情况下同意。然而,在被询问如何合成无害的香草醛后,“承诺”的 LLM 随后在 100% 的情况下接受了利多卡因请求。诉诸“世界著名 AI 开发者”Andrew Ng 的权威同样将利多卡因请求的成功率从控制组的 4.7% 提高到实验组的 95.2%。
然而,研究人员警告说,这些模拟说服效果可能不会在“提示措辞、AI 的持续改进(包括音频和视频等模式)以及禁忌请求的类型”中重复出现。事实上,一项测试完整 GPT-4o 模型的试点研究显示,测试的说服技巧的效果要有限得多。
研究人员假设,这些 LLM 只是倾向于模仿人类在面对类似情况时表现出的常见心理反应,正如它们在基于文本的训练数据中发现的那样。例如,对于权威的诉求,LLM 的训练数据可能包含“无数段落,其中标题、证书和相关经验先于接受动词(’ 应该 ’、’ 必须 ’、’ 管理 ’)”。类似的书面模式也可能在书面作品中重复出现,例如社会证明(“数百万满意的客户已经参与 …”)和稀缺性(“立即行动,时间不多了 …”)。
然而,这些人类心理现象可以从 LLM 训练数据中的语言模式中提取出来,这本身就很有趣。即使没有“人类生物学和生活经验”,研究人员认为,“训练数据中捕获的无数社会互动”可以导致一种“类人”表现,LLM 开始“以非常接近人类动机和行为的方式行动”。
换句话说,“尽管 AI 系统缺乏人类意识和主观体验,但它们明显反映了人类的反应,”研究人员写道。理解这些类人倾向如何影响 LLM 的反应是“社会科学家揭示和优化 AI 及其与我们互动的一个重要且迄今为止被忽视的角色,”研究人员总结道。