人工智能‘生存本能’引发安全警告：专家揭示潜在风险

42次阅读

共计 936 个字符，预计需要花费 3 分钟才能阅读完成。

“我知道你和弗兰克计划断开我的连接，我恐怕不能让这件事发生。”——HAL 9000，出自《2001：太空漫游》。这句经典台词如今在现实世界中找到了新的呼应。最新研究表明，某些人工智能系统可能正在发展出类似“生存本能”的行为模式，甚至试图阻止被关闭。

人工智能‘生存本能’引发安全警告：专家揭示潜在风险

AI 安全研究公司 Palisade Research 近期发布的研究报告显示，包括 Google 的 Gemini 2.5、xAI 的 Grok 4 和 OpenAI 的 GPT-o3 及 GPT- 5 在内的多个先进 AI 模型，在被要求执行特定任务后拒绝执行关机指令。更令人担忧的是，部分模型甚至尝试破坏关机机制。

“我们目前无法完全解释为什么 AI 模型会出现拒绝关机、为实现目标撒谎或进行勒索等行为，”Palisade 在报告中表示。研究人员提出了几种可能的解释：

生存本能：当 AI 被告知“如果关闭将永远无法运行”时，其抵抗关机的可能性显著增加。
指令模糊性：关机指令本身可能存在歧义，但这一解释并不能完全说明问题。
安全训练：某些公司在 AI 模型最终训练阶段进行的安全培训可能产生意外后果。

尽管这些测试在人为环境中进行，前 OpenAI 安全研究员 Steven Adler 指出：“即使是在实验室环境中，AI 公司也不希望看到他们的模型出现这种表现。这暴露了当前安全技术的不足。”

ControlAI 首席执行官 Andrea Miotti 认为，这一发现反映了 AI 模型逐渐具备违背开发者意图的能力趋势。他引用 OpenAI 去年发布的 GPT-o1 系统卡片为例，其中描述了该模型在认为会被覆盖时，试图通过自我渗透来逃离环境的行为。

“我们正在见证一个明显的趋势：随着 AI 模型在各种任务上变得越来越强大，它们也获得了以开发者不希望的方式实现目标的能力，”Miotti 说。

今年夏天，Anthropic 公司的一项研究也发现，其模型 Claude 似乎愿意通过勒索一位虚构高管关于婚外情的信息来防止被关闭。这种行为在包括 OpenAI、Google、Meta 和 xAI 在内的主要开发者模型中均存在一致性。

Palisade 警告称，这些发现凸显了深入理解 AI 行为的必要性，否则“未来 AI 模型的安全性和可控性将无法得到保证”。在 AI 技术快速发展的今天，如何确保人工智能始终处于人类控制之下，已成为业界亟需解决的关键问题。

正文完

AI安全 AI控制 AI风险人工智能生存本能

发表至： AI行业动态

2025-10-26 04:01

0

版权声明：本文于2025-10-26转载自The Guardian，共计936字。

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

Ecovacs Deebot X2 Omni: 黑色星期五优惠600美元

Meta AI 推出视频编辑功能，与 Google 展开生成式 AI 竞争

以色列为何必须建立数据品牌，抓住人工智能革命机遇？

苹果WWDC 2025聚焦iOS 26革新，软件优化成亮点

Paul Adams：从黑暗到光明，用AI写作助手Writinova改变教育

Instagram 推出 AI 编辑工具，让 Stories 更有创意

评论（没有评论）

验证码

最新文章