首款防御AI密码分析攻击的机制问世,保护AI系统知识产权

57次阅读
没有评论

共计 1360 个字符,预计需要花费 4 分钟才能阅读完成。

北卡罗来纳州立大学的安全研究人员近日开发出首款功能性防御机制,能够有效抵御针对 AI 系统模型参数的“密码分析”攻击。这一突破性成果为保护 AI 系统的知识产权提供了重要保障。

“AI 系统是宝贵的知识产权,而密码分析参数提取攻击是窃取该知识产权最有效、最高效且最准确的方式,”该论文的第一作者、北卡罗来纳州立大学博士生 Ashley Kurian 表示。“在此之前,尚无方法能够抵御这些攻击。我们的技术有效防范了这些攻击。”

 首款防御 AI 密码分析攻击的机制问世,保护 AI 系统知识产权

论文的通讯作者、北卡罗来纳州立大学电气与计算机工程副教授 Aydin Aysu 指出:“密码分析攻击已经发生,且正变得更加频繁和高效。我们需要立即实施防御机制,因为在 AI 模型的参数被提取后再实施就为时已晚。”

密码分析参数提取攻击的核心在于通过纯数学方法确定给定 AI 模型的参数,从而允许第三方重建 AI 系统。Aysu 解释道:“在密码分析攻击中,攻击者提交输入并观察输出,然后使用数学函数来确定参数是什么。到目前为止,这些攻击仅对一种称为神经网络的 AI 模型有效。然而,许多(如果不是大多数)商业 AI 系统都是神经网络,包括像 ChatGPT 这样的大型语言模型。”

新的防御机制依赖于研究人员对密码分析参数提取攻击的关键洞察。Kurian 表示:“我们观察到,密码分析攻击聚焦于神经元之间的差异。神经元之间的差异越大,攻击就越有效。我们的防御机制依赖于以某种方式训练神经网络模型,使模型同一层中的神经元彼此相似。这可以仅在第一层进行,也可以在多层进行。可以对一层中的所有神经元进行,也可以仅对一部分神经元进行。”

Aysu 补充道:“这种方法创建了一个‘相似性屏障’,使攻击难以进行。攻击本质上没有前进的路径。然而,模型在执行其指定任务的能力方面仍然正常运行。”

在概念验证测试中,研究人员发现,采用防御机制的 AI 模型的准确率变化不到 1%。Kurian 表示:“有时,经过重新训练以纳入防御机制的模型准确率略有提高,有时略有下降——但总体变化微乎其微。”

研究人员还测试了防御机制的效果。Kurian 指出:“我们重点关注使用密码分析技术在不到四小时内提取其参数的模型。在重新训练以纳入防御机制后,我们无法通过持续数天的密码分析攻击提取参数。”

作为这项工作的一部分,研究人员还开发了一个理论框架,可用于量化密码分析攻击的成功概率。Aysu 表示:“这个框架很有用,因为它允许我们估计给定 AI 模型对这些攻击的鲁棒性,而无需运行此类攻击数天。了解系统的安全性(或不安全性)是有价值的。”

Kurian 表示:“我们知道这种机制有效,并且乐观地认为人们会使用它来保护 AI 系统免受这些攻击。我们愿意与有兴趣实施该机制的行业合作伙伴合作。”

Aysu 也强调:“我们也知道,试图绕过安全措施的人最终会找到方法——黑客和安全在不断进行拉锯战。我们希望未来会有资金来源,使我们这些致力于新安全工作的人能够跟上步伐。”

这篇题为《Train to Defend: First Defense Against Cryptanalytic Neural Network Parameter Extraction Attacks》的论文将在 12 月 2 日至 7 日在加利福尼亚州圣地亚哥举行的第三十九届神经信息处理系统年会(NeurIPS)上展示。该研究得到了美国国家科学基金会(资助号 1943245)的支持。

正文完
 0
admin-gah
版权声明:本文于2025-11-18转载自Mirage News,共计1360字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码