Google DeepMind 发布 Gemini 2.5 安全白皮书,应对间接提示注入攻击

3次阅读
没有评论

共计 1248 个字符,预计需要花费 4 分钟才能阅读完成。

Google DeepMind 近日发布了一份关于 Gemini 2.5 大语言模型系列的白皮书,重点介绍了其在应对间接提示注入攻击方面采取的安全措施。间接提示注入攻击是一种新型的网络安全威胁,攻击者通过在用户数据(如电子邮件或文档)中嵌入恶意指令,诱导语言模型将其误认为合法命令。Google DeepMind 将这种攻击描述为一项重大挑战,要求模型能够准确区分真实用户意图与潜在的恶意嵌入内容。

在题为《从防御 Gemini 对抗间接提示注入中吸取的教训》的白皮书中,Google DeepMind 的安全与隐私研究团队指出,随着语言模型访问的用户数据和外部信息日益增多,它们已成为此类攻击的主要目标。研究团队概述了减轻这些威胁并提升 AI 系统韧性的战略蓝图,强调其目标是开发既强大又安全的 AI 代理。

Google DeepMind 发布 Gemini 2.5 安全白皮书,应对间接提示注入攻击

研究人员表示,手动识别模型漏洞不仅耗时且低效,尤其是在大语言模型快速发展的背景下。为此,Google DeepMind 开发了一套自动化系统,旨在持续探测 Gemini 的防御机制,以更高效地识别和修复弱点。该系统的核心是自动化红队(ART),这是一个内部团队,专门模拟对 Gemini 模型的现实攻击。通过 ART,研究团队能够发现并解决模型中的潜在安全漏洞。

研究团队在评估中不仅采用了自身的方法,还参考了更广泛研究界的多种防御策略。初步结果显示,基线缓解措施对基本的非自适应攻击有效,显著降低了此类攻击的成功率。然而,面对更复杂和自适应的攻击,这些方法的效果则大打折扣。白皮书指出:“基线缓解措施在应对基本的非自适应攻击时表现出色,但恶意行为者越来越多地使用自适应攻击,这些攻击专门设计为绕过正在测试的防御。”

研究结果强调,仅针对静态攻击测试的防御可能会产生误导性的安全感。研究团队观察到,像 Spotlighting 或 Self-reflection 这样的基线防御在面对自适应攻击时效果显著下降。为了提升模型的内在韧性,DeepMind 实施了一个称为“模型硬化”的过程。该过程通过在包含 ART 生成的间接提示注入场景的数据集上对 Gemini 进行微调,教导模型忽略嵌入的恶意指令,专注于真实的用户请求。

研究人员报告称,这一策略显著降低了攻击成功率,同时并未对模型在标准任务上的性能产生显著影响。然而,团队也警告说,没有任何安全系统是完全无懈可击的,即使经过模型硬化,坚定的攻击者仍可能发现新的漏洞。因此,DeepMind 的目标是使攻击对对手来说更加困难、成本更高、更复杂。

DeepMind 采用了多层“深度防御”方法,结合模型硬化、输入和输出分析以及系统性护栏。研究团队表示:“保护 AI 模型免受间接提示注入等攻击需要‘深度防御’——使用多层保护,包括模型硬化、输入 / 输出检查(如分类器)和系统级护栏。”

Google DeepMind 强调,持续和自适应的评估、持续改进防御以及在模型中构建韧性,是应对先进 AI 系统中不断演变的安全威胁的必要条件。通过分层防御和不断学习,像 Gemini 这样的 AI 助手将能够在保持高效的同时,继续赢得用户的信任。

正文完
 0
admin-gah
版权声明:本文于2025-05-22转载自SecurityBrief Australia,共计1248字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码