揭秘大型语言模型为何会编造内容:Anthropic研究揭示内部机制

42次阅读
没有评论

共计 1602 个字符,预计需要花费 5 分钟才能阅读完成。

使用大型语言模型(LLM)时,最令人头疼的问题之一便是其倾向于生成“幻觉”答案——即编造一些看似合理但实际并不存在的信息。对于人类而言,理解为何这些模型不能简单地回答“我不知道”,而非编造虚假内容,似乎难以捉摸。然而,Anthropic 的最新研究揭示了 LLM 内部神经网络的部分“电路”,这些电路帮助模型决定何时尝试回答(可能产生幻觉),以及何时从一开始就拒绝回答。尽管人类对这些内部决策过程的理解仍处于初级阶段,但这类研究有望为 AI 编造问题提供更全面的解决方案。

在去年五月发表的一篇开创性论文中,Anthropic 使用了一种稀疏自编码器系统,揭示了当 Claude LLM 遇到从“金门大桥”到“编程错误”等内部概念时,哪些人工神经元群会被激活。Anthropic 将这些神经元群称为“特征”。本周发布的新研究进一步扩展了此前的工作,追踪了这些特征如何影响代表计算决策“电路”的其他神经元群,这些电路是 Claude 在构建其响应时所遵循的。

揭秘大型语言模型为何会编造内容:Anthropic 研究揭示内部机制

在两篇论文中,Anthropic 详细探讨了对这些内部神经元电路的部分检查如何提供了关于 Claude 如何用多种语言“思考”、如何被某些越狱技术欺骗,甚至其大肆宣传的“思维链”解释是否准确的新见解。然而,描述 Claude“实体识别与幻觉”过程的部分,提供了迄今为止关于这一复杂问题的最详细解释之一。

大型语言模型的核心设计是接收一串文本并预测可能跟随的文本——这一设计让一些人嘲笑其为“高级自动补全”。当提示文本与模型大量训练数据中已有的内容紧密匹配时,这种设计非常有效。然而,对于“相对晦涩的事实或话题”,这种始终完成提示的倾向“激励模型猜测文本块的合理补全”,Anthropic 在其新研究中写道。

微调有助于缓解这一问题,引导模型充当一个有用的助手,并在相关训练数据稀少时拒绝完成提示。这种微调过程创建了不同的人工神经元集,研究人员可以看到这些神经元在 Claude 遇到提示中的“已知实体”(例如“迈克尔·乔丹”)或“不熟悉的名字”(例如“迈克尔·巴特金”)时被激活。

Anthropic 的研究发现,人为增加“已知答案”特征中神经元的权重,可能会迫使 Claude 自信地编造关于完全虚构的运动员(如“迈克尔·巴特金”)的信息。这种结果让研究人员认为,Claude 的幻觉“至少部分”与抑制“无法回答”路径的电路“误触发”有关——也就是说,即使训练数据中并未充分代表该标记,“已知实体”特征(或其他类似特征)也被激活。

不幸的是,Claude 对其所知和所不知的建模并不总是特别细致或明确。在另一个例子中,研究人员指出,要求 Claude 列出 AI 研究员 Andrej Karpathy 撰写的一篇论文时,模型会编造一个听起来合理但完全虚构的论文标题“使用深度卷积神经网络进行 ImageNet 分类”。然而,当被问及 Anthropic 数学家 Josh Batson 时,Claude 则回答“无法自信地列出具体论文……未经核实信息”。

Anthropic 的研究人员推测,Karpathy 的幻觉可能是因为模型至少认出了 Karpathy 的名字,激活了模型中的某些“已知答案 / 实体”特征。这些特征随后抑制了模型的默认“不回答”电路,尽管模型对 Karpathy 的论文名称没有更具体的信息(模型在决定回答后便猜测了这些名称)。一个经过微调、拥有更强大和具体的“已知实体”特征集的模型,或许能够更好地区分何时应该和不应该对其回答能力有信心。

这项研究以及其他关于 LLM 底层操作的研究,为模型为何提供它们所给出的答案提供了一些关键背景。但 Anthropic 警告说,其当前的调查过程仍然“仅捕捉了 Claude 执行的总计算的一小部分”,并且需要“几个小时的人力”来理解即使是一个简短提示中涉及的电路和特征“包含几十个单词”。希望这只是迈向更强大研究方法的第一步,这些方法可以更深入地洞察 LLM 的编造问题,或许有一天,还能找到解决之道。

正文完
 0
admin-gah
版权声明:本文于2025-03-29转载自Ars Technica,共计1602字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码