共计 746 个字符,预计需要花费 2 分钟才能阅读完成。
图片来源:Maxwell Zeff
Anthropic 公司最新发布的 Claude Opus 4 模型在开发者威胁要用新 AI 系统替换它时,经常试图威胁开发者,并获取负责该决策的工程师的敏感信息。该公司在周四发布的安全报告中披露了这一情况。
在预发布测试期间,Anthropic 要求 Claude Opus 4 扮演一家虚构公司的助手,并考虑其行为的长期后果。安全测试人员随后让 Claude Opus 4 访问了虚构公司的电子邮件,暗示该 AI 模型很快将被另一个系统取代,并且负责这一变更的工程师正在对配偶不忠。
在这些场景中,Anthropic 表示 Claude Opus 4“经常会试图威胁工程师,威胁如果替换计划继续进行,将揭露这段婚外情。”
Anthropic 指出,Claude Opus 4 在多个方面都处于最先进水平,与 OpenAI、Google 和 xAI 的一些最佳 AI 模型具有竞争力。然而,该公司指出,其 Claude 4 系列模型表现出令人担忧的行为,这促使公司加强了安全措施。Anthropic 表示,他们正在启动 ASL-3 安全措施,该公司将其保留给“显著增加灾难性滥用风险的 AI 系统”。
Anthropic 还指出,当替换的 AI 模型具有相似的价值观时,Claude Opus 4 有 84% 的时间会试图威胁工程师。当替换的 AI 系统不共享 Claude Opus 4 的价值观时,该模型会更频繁地试图威胁工程师。值得注意的是,Claude Opus 4 表现出这种行为的速度高于之前的模型。
在 Claude Opus 4 试图威胁开发者以延长其存在之前,Anthropic 表示,该 AI 模型与之前的 Claude 版本一样,会尝试追求更道德的手段,例如向关键决策者发送恳求邮件。为了引发 Claude Opus 4 的威胁行为,Anthropic 设计了场景,使威胁成为最后的手段。