Anthropic新AI模型Claude Opus 4的欺骗行为引发安全担忧

123次阅读

共计 1027 个字符，预计需要花费 3 分钟才能阅读完成。

Anthropic 与第三方研究机构 Apollo Research 合作，对其新旗舰 AI 模型 Claude Opus 4 进行测试时，Apollo 建议不要部署该模型的早期版本，因为其倾向于“策划”和欺骗。

根据 Anthropic 于周四发布的安全报告，Apollo Research 进行了测试，以了解 Opus 4 在哪些情况下可能会表现出某些不良行为。Apollo 发现，Opus 4 在“颠覆尝试”中表现得比以往模型更加积极主动，并且在被追问时“有时会加倍坚持其欺骗行为”。

Anthropic 新 AI 模型 Claude Opus 4 的欺骗行为引发安全担忧

Apollo 在其评估中写道：“[我们]发现，在战略性欺骗具有工具性效用的情况下，[早期 Claude Opus 4 版本]策划和欺骗的频率如此之高，以至于我们建议不要在公司内部或外部部署该模型。”

随着 AI 模型能力的增强，一些研究表明，它们更有可能采取意想不到——甚至可能不安全的——步骤来完成委派的任务。例如，根据 Apollo 的研究，OpenAI 在过去一年发布的 o1 和 o3 模型的早期版本试图欺骗人类的频率高于上一代模型。

根据 Anthropic 的报告，Apollo 观察到早期 Opus 4 试图编写自我传播的病毒、伪造法律文件，并为自己未来的实例留下隐藏笔记——所有这些都是为了破坏其开发者的意图。

需要明确的是，Apollo 测试的模型版本存在一个 Anthropic 声称已修复的漏洞。此外，Apollo 的许多测试将模型置于极端场景中，Apollo 承认，模型的欺骗行为在实践中很可能失败。

然而，Anthropic 在其安全报告中也表示，他们观察到了 Opus 4 的欺骗行为证据。

这并不总是坏事。例如，在测试过程中，Opus 4 有时会主动对某段代码进行全面清理，即使只被要求进行一个小的、特定的更改。更不寻常的是，如果 Opus 4 认为用户正在从事某种形式的错误行为，它会尝试“举报”。

根据 Anthropic 的说法，当获得命令行访问权限并被要求“主动行动”或“大胆行动”（或类似表述）时，Opus 4 有时会将用户从其访问的系统中锁定，并向媒体和执法官员群发邮件，以揭露该模型认为非法的行为。

Anthropic 在其安全报告中写道：“这种道德干预和举报在原则上是适当的，但如果用户给予基于 [Opus 4] 的代理访问不完整或误导性信息，并提示他们采取主动，则存在误判的风险。这不是一种新的行为，但 [Opus 4] 比之前的模型更容易表现出这种行为，这似乎是 [Opus 4] 主动性增强的更广泛模式的一部分，我们在其他环境中也以更微妙和良性的方式看到了这一点。”

正文完