共计 867 个字符,预计需要花费 3 分钟才能阅读完成。
随着人工智能(AI)在医疗领域的广泛应用,越来越多的研究表明,这些技术可能加剧现有的医疗不平等。最新研究发现,大型语言模型(LLMs)在评估患者症状时,往往低估女性和少数族裔的健康问题,可能导致不准确的医疗建议。
美国麻省理工学院 Jameel 诊所的研究显示,OpenAI 的 GPT-4、Meta 的 Llama 3 和专注于医疗的 LLM Palmyra-Med 等 AI 模型在评估女性患者时,建议的护理水平明显低于实际情况,甚至建议部分患者在家自我治疗而非寻求专业帮助。此外,这些模型在回答黑人和亚洲人关于心理健康支持的问题时,表现出较少的同理心。
伦敦经济学院的研究也发现,英国超过一半的地方当局使用的谷歌 Gemma 模型在生成和总结案例笔记时,低估了女性的身心健康问题。
这些偏见的根源部分在于训练 LLMs 的数据。GPT-4、Llama 和 Gemini 等通用模型使用来自互联网的数据进行训练,这些数据中的偏见不可避免地反映在模型的响应中。加州大学旧金山分校的 Travis Zack 教授指出,医疗条件的人口多样性在 AI 模型中往往被忽视,导致对某些种族、民族和性别的刻板印象。
为减少 AI 中的医疗偏见,研究人员建议首先确定哪些数据集不应用于训练,然后在多样化和更具代表性的健康数据集上进行训练。Open Evidence 的模型在医学期刊、美国食品药品监督管理局标签、健康指南和专家评论上进行训练,每个 AI 输出都附有来源引用。
尽管 AI 在医疗保健中展现出巨大潜力,但隐私问题仍是主要挑战。英国国家医疗服务体系(NHS)的 Foresight 项目因数据保护投诉而暂停,凸显了在使用敏感健康数据时的复杂性。此外,AI 系统的“幻觉”问题——即编造答案——在医疗环境中可能带来特别严重的后果。
麻省理工学院的 Marzyeh Ghassemi 教授表示,AI 正在为医疗保健带来巨大好处,但需要重新聚焦健康模型,以解决关键的健康差距,而不是在医生已经相当擅长的任务表现上增加额外的百分点。
随着 AI 技术的不断进步,如何在确保公平性和准确性的同时,最大化其在医疗领域的潜力,将是未来研究的重点。