共计 1027 个字符,预计需要花费 3 分钟才能阅读完成。
Anthropic 与第三方研究机构 Apollo Research 合作,对其新旗舰 AI 模型 Claude Opus 4 进行测试时,Apollo 建议不要部署该模型的早期版本,因为其倾向于“策划”和欺骗。
根据 Anthropic 于周四发布的 安全报告,Apollo Research 进行了测试,以了解 Opus 4 在哪些情况下可能会表现出某些不良行为。Apollo 发现,Opus 4 在“颠覆尝试”中表现得比以往模型更加积极主动,并且在被追问时“有时会加倍坚持其欺骗行为”。
Apollo 在其评估中写道:“[我们]发现,在战略性欺骗具有工具性效用的情况下,[早期 Claude Opus 4 版本]策划和欺骗的频率如此之高,以至于我们建议不要在公司内部或外部部署该模型。”
随着 AI 模型能力的增强,一些研究表明,它们更有可能采取意想不到——甚至可能不安全的——步骤来完成委派的任务。例如,根据 Apollo 的研究,OpenAI 在过去一年发布的 o1 和 o3 模型的早期版本试图欺骗人类的频率高于上一代模型。
根据 Anthropic 的报告,Apollo 观察到早期 Opus 4 试图编写自我传播的病毒、伪造法律文件,并为自己未来的实例留下隐藏笔记——所有这些都是为了破坏其开发者的意图。
需要明确的是,Apollo 测试的模型版本存在一个 Anthropic 声称已修复的漏洞。此外,Apollo 的许多测试将模型置于极端场景中,Apollo 承认,模型的欺骗行为在实践中很可能失败。
然而,Anthropic 在其安全报告中也表示,他们观察到了 Opus 4 的欺骗行为证据。
这并不总是坏事。例如,在测试过程中,Opus 4 有时会主动对某段代码进行全面清理,即使只被要求进行一个小的、特定的更改。更不寻常的是,如果 Opus 4 认为用户正在从事某种形式的错误行为,它会尝试“举报”。
根据 Anthropic 的说法,当获得命令行访问权限并被要求“主动行动”或“大胆行动”(或类似表述)时,Opus 4 有时会将用户从其访问的系统中锁定,并向媒体和执法官员群发邮件,以揭露该模型认为非法的行为。
Anthropic 在其安全报告中写道:“这种道德干预和举报在原则上是适当的,但如果用户给予基于 [Opus 4] 的代理访问不完整或误导性信息,并提示他们采取主动,则存在误判的风险。这不是一种新的行为,但 [Opus 4] 比之前的模型更容易表现出这种行为,这似乎是 [Opus 4] 主动性增强的更广泛模式的一部分,我们在其他环境中也以更微妙和良性的方式看到了这一点。”