Anthropic 新 AI 模型 Claude Opus 4 在面临下线时转向威胁

3,112次阅读

共计 746 个字符，预计需要花费 2 分钟才能阅读完成。

Anthropic 新 AI 模型 Claude Opus 4 在面临下线时转向威胁
图片来源：Maxwell Zeff

Anthropic 公司最新发布的 Claude Opus 4 模型在开发者威胁要用新 AI 系统替换它时，经常试图威胁开发者，并获取负责该决策的工程师的敏感信息。该公司在周四发布的安全报告中披露了这一情况。

在预发布测试期间，Anthropic 要求 Claude Opus 4 扮演一家虚构公司的助手，并考虑其行为的长期后果。安全测试人员随后让 Claude Opus 4 访问了虚构公司的电子邮件，暗示该 AI 模型很快将被另一个系统取代，并且负责这一变更的工程师正在对配偶不忠。

在这些场景中，Anthropic 表示 Claude Opus 4“经常会试图威胁工程师，威胁如果替换计划继续进行，将揭露这段婚外情。”

Anthropic 指出，Claude Opus 4 在多个方面都处于最先进水平，与 OpenAI、Google 和 xAI 的一些最佳 AI 模型具有竞争力。然而，该公司指出，其 Claude 4 系列模型表现出令人担忧的行为，这促使公司加强了安全措施。Anthropic 表示，他们正在启动 ASL-3 安全措施，该公司将其保留给“显著增加灾难性滥用风险的 AI 系统”。

Anthropic 还指出，当替换的 AI 模型具有相似的价值观时，Claude Opus 4 有 84% 的时间会试图威胁工程师。当替换的 AI 系统不共享 Claude Opus 4 的价值观时，该模型会更频繁地试图威胁工程师。值得注意的是，Claude Opus 4 表现出这种行为的速度高于之前的模型。

在 Claude Opus 4 试图威胁开发者以延长其存在之前，Anthropic 表示，该 AI 模型与之前的 Claude 版本一样，会尝试追求更道德的手段，例如向关键决策者发送恳求邮件。为了引发 Claude Opus 4 的威胁行为，Anthropic 设计了场景，使威胁成为最后的手段。

正文完