揭秘AI模型记忆与推理:GPT-5的神经路径分离

24次阅读
没有评论

共计 2708 个字符,预计需要花费 7 分钟才能阅读完成。

在构建如 GPT-5 这样的 AI 语言模型时,工程师们通常会面临两个主要的处理特征:记忆和推理。记忆指的是模型能够逐字背诵之前见过的文本,如名言或书籍段落;而推理则是指模型能够运用一般原则解决新问题。AI 初创公司 Goodfire.ai 的最新研究首次提供了清晰的证据,表明这两种功能实际上通过模型架构中完全独立的神经路径进行工作。

研究人员发现,这种分离非常明显。在 10 月底发布的一篇预印论文中,他们描述道,当他们移除记忆路径时,模型失去了 97% 的逐字背诵训练数据的能力,但几乎保留了所有的“逻辑推理”能力。

揭秘 AI 模型记忆与推理:GPT- 5 的神经路径分离

例如,在 Allen Institute for AI 的 OLMo-7B 语言模型的第 22 层,底部的 50% 权重组件在记忆数据上显示出 23% 更高的激活,而顶部的 10% 在一般非记忆文本上显示出 26% 更高的激活。这种机制分离使研究人员能够手术式地移除记忆,同时保留其他能力。

令人惊讶的是,研究人员发现算术操作似乎与记忆共享相同的神经路径,而非逻辑推理。当他们移除记忆电路时,数学表现骤降至 66%,而逻辑任务几乎不受影响。这一发现可能解释了为什么 AI 语言模型在不使用外部工具的情况下在数学上表现糟糕。它们试图从有限的记忆表中回忆算术,而不是进行计算,就像一个记住了乘法表但从未学会乘法如何工作的学生。这一发现表明,在当前规模下,语言模型将“2+2=4”更像是一个记忆事实,而非逻辑操作。

值得注意的是,AI 研究中的“推理”涵盖了一系列不一定与人类所称的推理相匹配的能力。在这项最新研究中,在移除记忆后存活的逻辑推理包括评估真 / 假陈述和遵循 if-then 规则等任务,这些任务本质上是将学习到的模式应用于新输入。这也与当前 AI 模型在证明或新颖问题解决所需的更深层次“数学推理”上表现不佳有所不同,即使它们的模式匹配能力保持完整。

展望未来,如果信息移除技术进一步发展,AI 公司有可能有朝一日从神经网络中移除受版权保护的内容、私人信息或有害的记忆文本,而不会破坏模型执行变革性任务的能力。然而,由于神经网络以分布式方式存储信息,目前尚未完全理解,研究人员表示他们的方法“不能保证完全消除敏感信息”。这是 AI 新研究方向的早期步骤。

为了理解 Goodfire 的研究人员如何在这些神经网络中区分记忆和推理,了解 AI 中称为“损失地形”的概念会有所帮助。“损失地形”是一种可视化方法,显示在调整 AI 模型的内部设置(称为“权重”)时,其预测的错误或正确程度。

想象你在调整一台有数百万个旋钮的复杂机器。“损失”衡量机器犯错的次数。高损失意味着许多错误,低损失意味着很少错误。“地形”是如果你能映射出每个旋钮设置组合的错误率,你会看到的东西。

在训练过程中,AI 模型基本上在这个地形中“滚下山坡”(梯度下降),调整其权重以找到犯错最少的谷地。这个过程提供了 AI 模型的输出,如问题的答案。

研究人员分析了特定 AI 语言模型的损失地形的“曲率”,衡量模型性能对不同神经网络权重微小变化的敏感程度。尖锐的峰和谷代表高曲率(微小变化引起大影响),而平坦的平原代表低曲率(变化影响最小)。

使用一种称为 K-FAC(Kronecker-Factored Approximate Curvature)的技术,他们发现单个记忆事实在地形中产生尖锐的峰值,但由于每个记忆项目在不同的方向上峰值,当平均在一起时,它们创建了一个平坦的轮廓。与此同时,许多不同输入依赖的推理能力在整个地形中保持一致的适度曲线,就像无论从哪个方向接近,山丘的形状大致相同。

“实现许多输入共享机制的方向连贯地增加,并保持平均高曲率,”研究人员写道,描述推理路径。相比之下,记忆使用“与特定示例相关的独特尖锐方向”,在数据平均时显得平坦。

研究人员在多个 AI 系统上测试了他们的技术,以验证这些发现是否适用于不同的架构。他们主要使用了 Allen Institute 的 OLMo-2 系列开放语言模型,特别是 70 亿和 10 亿参数的版本,选择这些模型是因为它们的训练数据是公开的。对于视觉模型,他们训练了定制的 8600 万参数 Vision Transformers(ViT-Base 模型),在 ImageNet 上使用故意错误标记的数据来创建受控的记忆。他们还验证了他们的发现与现有的记忆移除方法(如 BalancedSubnet)的性能基准。

团队通过从这些训练模型中选择性移除低曲率权重组件来测试他们的发现。记忆内容从近 100% 下降到 3.4%。与此同时,逻辑推理任务保持了 95% 到 106% 的基线性能。

这些逻辑任务包括布尔表达式评估、逻辑推理谜题(如“如果 A 比 B 高”)、通过多次交换的对象跟踪,以及 BoolQ(用于是 / 否推理)、Winogrande(用于常识推理)和 OpenBookQA(用于需要从提供的事实中推理的科学问题)等基准。一些任务介于这些极端之间,揭示了机制谱。

数学操作和闭卷事实检索与记忆共享路径,在编辑后性能下降到 66% 到 86%。研究人员发现算术特别脆弱。即使模型生成了相同的推理链,在移除低曲率组件后,它们在计算步骤中失败。

“算术问题本身在 7B 规模上被记忆,或者因为它们需要狭窄使用的方向来进行精确计算,”团队解释道。依赖于提供上下文而非内部知识的开卷问题回答在编辑过程中表现最为稳健,保持了几乎全部性能。

有趣的是,机制分离因信息类型而异。常见事实(如国家首都)在编辑后几乎没有变化,而罕见事实(如公司 CEO)下降了 78%。这表明模型根据信息在训练中出现的频率分配不同的神经资源。

K-FAC 技术在不需要记忆内容训练示例的情况下,优于现有的记忆移除方法。在未见过的历史引用上,K-FAC 实现了 16.1% 的记忆,而之前的最佳方法 BalancedSubnet 为 60%。

Vision Transformers 显示出类似的模式。当使用故意错误标记的图像进行训练时,模型开发了记忆错误标签与学习正确模式的独立路径。移除记忆路径恢复了 66.5% 的先前错误标记图像的准确性。

然而,研究人员承认他们的技术并不完美。一旦移除的记忆可能会在模型接受更多训练后返回,因为其他研究表明,当前的遗忘方法只能抑制信息,而不是完全从神经网络的权重中删除它。这意味着“被遗忘”的内容可以通过针对这些抑制区域的少量训练步骤重新激活。

研究人员也无法完全解释为什么某些能力(如数学)在移除记忆时如此容易崩溃。目前尚不清楚模型是否实际上记忆了所有算术,或者数学是否恰好使用与记忆相似的神经回路。此外,一些复杂的能力可能在其检测方法中看起来像记忆,即使它们实际上是复杂的推理模式。最后,他们用于测量模型“地形”的数学工具在极端情况下可能变得不可靠,尽管这并不影响实际的编辑过程。

正文完
 0
admin-gah
版权声明:本文于2025-11-11转载自Ars Technica,共计2708字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码