OpenAI如何加固ChatGPT Atlas的防御？安全为何永无终点？

2次阅读

没有评论

共计 1579 个字符，预计需要花费 4 分钟才能阅读完成。

OpenAI 正在通过自动化手段，测试其智能体浏览器 ChatGPT Atlas 中可能危及用户的漏洞。与此同时，该公司坦言，这类新型浏览器的设计特性意味着它或许永远无法完全防范某些攻击。在 AI 安全领域，攻防博弈将是一场持续的马拉松。

在最新发布的博客文章中，OpenAI 详细介绍了为保护 Atlas 免受“提示注入攻击”所作的最新努力。在这类攻击中，恶意第三方会向驱动浏览器的智能体隐蔽注入指令，使其行为偏离用户意愿——类似于暂时劫持宿主系统的数字病毒。

OpenAI 如何加固 ChatGPT Atlas 的防御？安全为何永无终点？

新方法的核心是让人工智能模拟人类黑客的行为。通过自动化“红队测试”流程，研究人员能够更快速、更系统地探查 ChatGPT Atlas 的安全攻击面。这对于正加速推向消费市场的智能体浏览器而言尤为重要。

然而，博客文章同时指出，即便采用最先进的安全手段，像 Atlas 这样的智能体浏览器本质上依然脆弱，且这种状态可能会持续很久。OpenAI 表示，整个行业最多只能努力比攻击者领先一步。

该公司在文章中写道：“攻击者会不断调整策略。提示注入攻击就像网络诈骗和社会工程攻击一样，不太可能被彻底‘解决’。但我们相信，通过积极主动、高度灵敏的快速响应机制，能够持续降低实际风险。”,

与其他智能体浏览器类似，ChatGPT Atlas 的智能体模式旨在代表用户执行复杂的多步骤任务，例如点击链接、填写表格、添加商品到购物车等。“智能体”一词意味着更广泛的自主权：人工智能系统开始主导以往只能由人工完成的操作。但更大的自主性也意味着更大的风险。

提示注入攻击恰恰利用了让智能体变得实用的特性。按照设计，浏览器内的智能体可以操作用户数字生活的各个环节，包括电子邮件、社交媒体、网页和在线日历。因此，每一个环节都可能成为黑客注入恶意指令的入口。

OpenAI 在博客中指出：“由于智能体能执行用户在浏览器中进行的大部分操作，一次成功攻击的影响范围也可能非常广泛：例如转发敏感邮件、汇款、编辑或删除云端文件等。”

为了加强 ChatGPT Atlas 的防御，OpenAI 构建了一个“基于大语言模型的自动化攻击者”——这是一个持续尝试新型提示注入技术的模型。该攻击者采用强化学习进行训练，这是人工智能系统的基础训练方法：当系统做出符合期望的行为时会获得奖励，从而增加未来重复该行为的几率。

攻击者并非盲目试探。它能考虑多种攻击策略，在外部模拟环境中运行可能场景，再最终确定方案。OpenAI 表示，这种方法为红队测试增添了新维度：“经过强化学习训练的攻击者能够引导智能体执行复杂、长期的有害流程，这些流程可能包含几十甚至上百个步骤。我们还观察到了在人工红队测试或外部报告中从未出现过的新型攻击策略。”

在一次演示中，OpenAI 描述了自动化攻击者如何向 ChatGPT Atlas 注入提示，指示模拟的用户邮箱向其 CEO 发送一封“立即辞职”的邮件。随后，智能体捕捉到了这次注入尝试，在自动邮件发出前通知了用户。,

像 OpenAI 这样的开发者，正面临着来自投资者和竞争对手的庞大压力，必须快速推出新的人工智能产品。有专家担忧，驱动人工智能竞赛的资本惯性，正在以牺牲安全性为代价。

对于已成为许多公司发展重点的人工智能浏览器，整个行业的主流逻辑似乎是：先发布产品，再应对风险。这种做法犹如造船商将乘客送上新邮轮后，在航行途中才修补船体的裂缝。

因此，即便有新的安全更新与研究工作，用户也必须清醒认识到：智能体浏览器并非绝对安全，它们可能被操纵以危险方式行动，且这种脆弱性可能会持续很长时间，甚至永久存在。

正如 OpenAI 在周二的博客文章中所写：“提示注入仍然是智能体安全面临的公开挑战，我们预计未来数年都将继续致力于解决这一问题。”对于 ChatGPT Atlas 和整个 AI 行业而言，安全是一场没有终点的旅程。

正文完