共计 1719 个字符,预计需要花费 5 分钟才能阅读完成。
患者隐私保护的核心是什么?被誉为医学伦理基石的《希波克拉底誓言》早已申明:“凡我所见所闻,无论有无业务关系,我认为应守秘密者,我愿保守秘密。”在数据饥渴的算法与网络攻击日益猖獗的时代,隐私已成为稀缺品。医学领域是少数仍将保密性置于实践核心的行业之一,这正是患者能够信任医生并分享敏感信息的基础。
然而,麻省理工学院研究人员参与的一项新研究指出,基于去标识化电子健康记录训练的 AI 模型,仍可能记忆特定患者的信息。该研究于 2025 年神经信息处理系统大会上发表,建议建立严格的测试框架,以确保针对性提示无法提取隐私信息,并强调必须在真实的医疗保健环境中评估数据泄露风险,以判断其是否实质性地危害患者隐私。
通常,基于电子健康记录训练的基础模型应泛化学到的知识,利用海量患者记录做出更准确的预测。但在“记忆”现象中,模型可能过度依赖单一患者的记录来生成输出,从而引发隐私侵犯。值得注意的是,基础模型已被证实容易发生数据泄露。
论文第一作者、麻省理工学院与哈佛大学 Broad 研究所 Eric and Wendy Schmidt 中心博士后 Sana Tonekaboni 表示:“这些高容量模型中的知识可以成为许多社区的宝贵资源,但恶意攻击者可能通过精心设计的提示,诱使模型泄露训练数据中的信息。”考虑到基础模型记忆私人数据的风险,她补充道:“这项研究旨在确保,在公开发布模型之前,社区能够采取切实可行的评估步骤。”
为探究电子健康记录基础模型在医疗领域中可能带来的隐私风险,Tonekaboni 与麻省理工学院副教授 Marzyeh Ghassemi 合作。Ghassemi 是 Abdul Latif Jameel 健康机器学习诊所的首席研究员,同时任职于计算机科学与人工智能实验室,并领导 Healthy ML 研究组,专注于健康领域的稳健机器学习。
攻击者需要掌握多少信息才能暴露敏感数据?泄露的风险究竟有多大?为评估这些问题,研究团队开发了一系列测试,希望为未来的隐私评估奠定基础。这些测试旨在衡量不同类型的不确定性,并通过模拟不同层级的攻击可能性,评估其对患者的实际风险。
Ghassemi 强调:“我们特别注重实用性。如果攻击者需要事先知道某位患者记录中十几项实验室检测的日期和数值才能提取信息,那么造成伤害的风险其实非常低。如果我已经能访问这种级别的受保护原始数据,又何必费力攻击大型基础模型来获取更多信息呢?”
随着医疗记录全面数字化,数据泄露事件日益频繁。过去 24 个月内,美国卫生与公众服务部记录了 747 起影响超过 500 人的健康信息泄露事件,其中大部分被归类为黑客或 IT 事件。
罕见疾病患者尤其脆弱,因为他们更容易被识别。Tonekaboni 指出:“即使是去标识化的数据,风险也取决于泄露了关于个人的哪些信息。一旦身份被识别,攻击者就能获取更多隐私。”
在结构化测试中,研究人员发现,攻击者对特定患者的信息掌握得越多,模型泄露信息的可能性就越高。他们展示了如何区分模型的泛化学习与患者级别的记忆,从而更准确地评估隐私风险。
研究还强调,某些类型的泄露比其他更具危害性。例如,泄露患者的年龄或人口统计信息可能被视为相对低风险,而泄露 HIV 诊断或酒精滥用等敏感信息则危害更大。
研究人员指出,罕见疾病患者由于易被识别,可能需要更高级别的保护。Tonekaboni 表示:“即使是去标识化的数据,风险实际上取决于泄露了关于个人的哪些具体信息。”研究团队计划将这项工作拓展至更多学科领域,并邀请临床医生、隐私专家及法律专家共同参与。
Tonekaboni 总结道:“我们的健康数据之所以需要保密,是有充分理由的。其他人没有权利知道这些信息。”
这项研究获得了麻省理工学院与哈佛大学 Broad 研究所 Eric and Wendy Schmidt 中心、Wallenberg AI、Knut and Alice Wallenberg 基金会、美国国家科学基金会、Gordon and Betty Moore 基金会奖项、Google Research Scholar 奖项以及 Schmidt Sciences 的 AI2050 计划的支持。研究准备过程中使用的资源部分由安大略省、加拿大政府通过 CIFAR 以及赞助 Vector Institute 的公司提供。