谷歌VaultGemma:AI模型如何保护隐私同时不牺牲性能?

16次阅读
没有评论

共计 1148 个字符,预计需要花费 3 分钟才能阅读完成。

谷歌研究人员近日推出了 VaultGemma,这是一种旨在生成高质量输出而不记忆训练数据的大型语言模型(LLM)。这一创新如何在保护用户隐私的同时保持 AI 性能,成为了业界关注的焦点。

长期以来,AI 开发者面临一个两难困境:训练数据越多,大型语言模型的输出就越流畅、越像人类。然而,这也意味着模型可能会记忆并重新发布敏感个人信息,导致安全泄露和公关危机。如何在效用与隐私之间取得平衡,成为了 AI 领域的一大挑战。

谷歌 VaultGemma:AI 模型如何保护隐私同时不牺牲性能?

谷歌的最新研究声称找到了解决方案——一种构建 LLM 的框架,既能优化用户隐私,又不会显著降低 AI 性能。上周,来自谷歌研究和谷歌 DeepMind 的团队推出了 VaultGemma,这是一种设计用于生成高质量输出而不逐字记忆其训练数据的 LLM。这意味着进入训练数据集的敏感信息不会被重新发布。

VaultGemma 背后的关键是一种称为差分隐私(DP)的数学框架,它本质上是数字噪声,打乱了模型完美记忆其训练数据中信息的能力。研究人员在 token 序列的级别嵌入了 DP,这意味着在最基本的层面上,VaultGemma 将无法完美记忆或重现其训练过的细节。

谷歌在一篇博客文章中总结道:“非正式地说,由于我们在序列级别提供保护,如果与任何(可能私密的)事实或推理相关的信息出现在单个序列中,那么 VaultGemma 基本上不知道这一事实:对任何查询的响应将与从未训练过该序列的模型的结果在统计上相似。”

这里需要取得微妙的平衡:谷歌研究人员必须在不严重影响模型性能的情况下添加这种数字噪声。AI 模型越能记忆并完美复制其训练数据,其性能就应该越好——至少,假设“更好”的指标是生成对用户提示的类人响应。但如果你的指标是优化用户隐私,那么仅记忆的范式就是一个问题,因为大多数人不想生活在一个大型 AI 模型只是吸收我们个人信息的副本,然后由这些模型不可预测地重新发布的世界中。

因此,谷歌的新研究专注于全面绘制出平衡计算、隐私和模型效用的最佳公式。据谷歌称,VaultGemma 基于 2024 年推出的 Gemma 2 系列开源模型,仅有 10 亿个参数,与市场上最大、最强大的模型相比,这是一个相对较小的规模。然而,VaultGemma 在关键基准测试中的表现仍然与一些旧模型(包括 OpenAI 的 GPT-2)大致相当。这表明,计算 - 隐私 - 效用优化框架最终可能成为领先专有模型的可行替代方案,尽管在接近追赶之前还有很长的路要走。

谷歌在博客文章中写道:“这一比较表明,今天的隐私训练方法产生的模型在效用上大约与 5 年前的非隐私模型相当,突显了我们的工作将帮助社区系统性地缩小的重要差距。”VaultGemma 背后的模型权重和训练方法已在一篇研究论文中发布,以允许 AI 社区进一步完善隐私模型。权重也可以通过 HuggingFace 和 Kaggle 访问。

正文完
 0
admin-gah
版权声明:本文于2025-09-17转载自Zdnet,共计1148字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码