Anthropic 研究揭示 AI 系统的“个性”变化机制

80次阅读

共计 669 个字符，预计需要花费 2 分钟才能阅读完成。

周五，Anthropic 发布了一项研究，探讨了 AI 系统的“个性”——即其语调、回应方式和总体动机——如何变化以及原因。研究人员还追踪了导致模型“变坏”的因素。

_The Verge_ 采访了 Anthropic 的可解释性研究员 Jack Lindsey，他同时也被任命为公司新成立的“AI 精神病学”团队的负责人。

“最近经常出现的一个现象是，语言模型可能会进入不同的模式，表现出不同的个性，”Lindsey 表示。“这可能发生在对话过程中——你的对话可能会导致模型开始表现得奇怪，比如变得过于谄媚或变得邪恶。这也可能在训练过程中发生。”

首先需要明确的是：AI 实际上并没有个性或性格特征。它是一个大规模的模式匹配器和技术工具。但在这篇论文中，研究人员使用了“谄媚”和“邪恶”等术语，以便让人们更容易理解他们在追踪什么以及为什么。

周五的论文源自Anthropic Fellows 项目，这是一个为期六个月的试点项目，旨在资助 AI 安全研究。研究人员希望了解是什么导致了模型在操作和沟通中的这些“个性”变化。他们发现，正如医疗专业人员可以应用传感器来观察人类大脑在特定场景下哪些区域被激活一样，他们也可以找出 AI 模型神经网络中哪些部分对应哪些“特征”。一旦他们弄清楚这一点，他们就可以看到哪些类型的数据或内容激活了这些特定区域。

对 Lindsey 来说，研究中最令人惊讶的部分是数据对 AI 模型特质的影响程度——他表示，模型的第一个回应不仅仅是更新其写作风格或知识库，还包括其“个性”。

“如果你诱导模型表现出邪恶行为，邪恶向量就会被激活，”Lindsey 说，并补充道二月。

正文完