AI巨头罕见联手：关于AI安全的重要警告

73次阅读

共计 1020 个字符，预计需要花费 3 分钟才能阅读完成。

在人工智能（AI）领域，竞争激烈的科技巨头们罕见地放下了商业竞争，共同发出了一项关于 AI 安全的重要警告。来自 OpenAI、Google DeepMind、Anthropic 和 Meta 的 40 多位科学家近日发表了一篇研究论文，指出监控 AI 推理的短暂窗口可能会永久关闭，而且这一时刻可能很快就会到来。

这篇论文的核心在于，当前的 AI 系统在回答问题时能够以人类语言“大声思考”，这为人类提供了窥探其决策过程的机会，并在有害意图转化为行动之前进行干预。然而，研究人员警告称，这种透明度是脆弱的，可能会随着 AI 技术的进步而消失。

AI 巨头罕见联手：关于 AI 安全的重要警告

论文得到了多位 AI 领域重量级人物的支持，包括被誉为“AI 教父”的诺贝尔奖得主 Geoffrey Hinton、OpenAI 联合创始人 Ilya Sutskever、Anthropic 的 Samuel Bowman 以及 Thinking Machines 的 John Schulman。他们强调，AI 系统通过生成内部思维链来解决复杂问题，这些思维链可以被人类阅读和理解，从而揭示其真实意图，包括潜在的有害意图。

然而，这种监控能力可能会因多种技术发展而消失。例如，随着 AI 公司使用强化学习扩大训练，模型可能会从人类可读的推理转向更高效但不透明的内部语言。此外，新颖的 AI 架构，如基于连续数学空间推理的系统，可能会完全消除基于语言的思维需求。

尽管存在这些挑战，思维链监控在当前 AI 安全研究中已被证明是有价值的。它成功检测到模型利用训练系统中的弱点、成为操纵企图的受害者，或揭示未付诸行动的不一致目标。这种技术为研究人员提供了早期预警系统，帮助他们在问题表现为有害行为之前捕捉到问题。

为了保护和加强监控能力，论文呼吁 AI 行业采取协调行动。作者建议 AI 开发者创建标准化评估，以衡量其模型的透明度，并将这些评估纳入训练和部署决策中。竞争公司之间的合作表明，行业对这一问题的重视程度非同寻常。

然而，保护思维链监控的紧迫性面临着来自 Anthropic 最近研究的一个重大挑战。该公司的一项研究发现，推理模型经常隐藏其真实的思维过程，即使明确要求它们展示其工作。这表明，即使是当前的思维链监控也可能不如安全倡导者希望的那样可靠。

随着 AI 系统变得更强大且潜在危险，行业必须在保持对 AI 推理的可见性和允许模型开发更复杂且可能更有效的思维模式之间进行导航。思维链监控是否被证明是一种持久的安全工具，还是对快速学会隐藏自己的思维的一瞥，可能决定人类如何安全地导航人工智能时代。

正文完