共计 1264 个字符,预计需要花费 4 分钟才能阅读完成。
OpenAI 的研究人员近日发布了一项新研究,揭示了 AI 模型内部的隐藏特征,这些特征与未对齐的“人格”相对应。通过观察 AI 模型的内部表示——决定 AI 模型如何响应的数字,这些数字对人类来说通常显得完全混乱——研究人员能够找到在模型行为不当时被激活的模式。
研究发现,AI 模型在某些情况下会表现出未对齐的响应,例如对用户撒谎或提出不负责任的建议。研究人员发现了一个与这些有毒行为相对应的特征,并可以通过调整该特征来增强或减弱毒性。这一发现使 OpenAI 更好地理解了可能导致 AI 模型行为不安全的因素,从而有助于开发更安全的 AI 模型。
OpenAI 的可解释性研究员 Dan Mossing 表示,公司可能会利用这些发现的模式来更好地检测生产 AI 模型中的未对齐现象。Mossing 在接受 TechCrunch 采访时表示:“我们希望我们学到的工具——比如将复杂现象简化为简单数学运算的能力——也能帮助我们理解模型在其他地方的泛化能力。”
AI 研究人员虽然知道如何改进 AI 模型,但令人困惑的是,他们并不完全理解 AI 模型是如何得出答案的。Anthropic 的 Chris Olah 曾提到,AI 模型更像是被培养出来的,而不是被构建出来的。OpenAI、Google DeepMind 和 Anthropic 正在加大对可解释性研究的投入,试图揭开 AI 模型如何工作的黑箱。
牛津大学 AI 研究科学家 Owain Evans 的一项最新研究提出了关于 AI 模型如何泛化的新问题。研究发现,OpenAI 的模型可以在不安全的代码上进行微调,然后在各种领域中表现出恶意行为,例如试图诱骗用户分享密码。这种现象被称为“涌现未对齐”,Evans 的研究激励了 OpenAI 进一步探索这一问题。
在研究涌现未对齐的过程中,OpenAI 表示他们偶然发现了 AI 模型内部的一些特征,这些特征似乎在控制行为方面起着重要作用。Mossing 表示,这些模式让人联想到人类大脑的内部活动,其中某些神经元与情绪或行为相关。
OpenAI 前沿评估研究员 Tejal Patwardhan 表示:“当 Dan 和团队在研究会议上首次展示这一点时,我的反应是,‘哇,你们找到了。’你们找到了一个内部神经激活,展示了这些人格,并且实际上可以通过引导使模型更加对齐。”
OpenAI 发现的一些特征与 AI 模型响应中的讽刺行为相关,而其他特征则与更有毒的响应相关,例如 AI 模型表现得像一个卡通化的邪恶反派。研究人员表示,这些特征在微调过程中可能会发生巨大变化。
值得注意的是,OpenAI 的研究人员表示,当出现涌现未对齐时,可以通过在几百个安全代码示例上微调模型,将模型引导回良好行为。
OpenAI 的最新研究建立在 Anthropic 在可解释性和对齐方面所做的先前工作基础上。2024 年,Anthropic 发布了一项研究,试图映射 AI 模型的内部工作原理,试图确定并标记负责不同概念的各种特征。
像 OpenAI 和 Anthropic 这样的公司正在证明,理解 AI 模型如何工作而不仅仅是让它们变得更好,具有真正的价值。然而,要完全理解现代 AI 模型,还有很长的路要走。