共计 497 个字符,预计需要花费 2 分钟才能阅读完成。
上海科技大学助理教授万志宇带领的国际研究团队在《健康数据科学》期刊发表了一项突破性研究,揭示了多模态大语言模型(LLMs)在皮肤病诊断中的潜在偏见。研究发现,ChatGPT- 4 和 LLaVA 等 AI 模型在不同性别和年龄组中的诊断表现存在显著差异。
研究团队使用了约 10,000 张皮肤镜图像,重点关注黑色素瘤、黑色素细胞痣和良性角化病样病变三种常见皮肤病。结果显示,虽然 ChatGPT- 4 和 LLaVA 总体上优于传统深度学习模型,但 LLaVA 在性别相关诊断中表现出明显的偏见,而 ChatGPT- 4 则展现出更高的公平性。
万志宇博士指出:” 大语言模型在皮肤病学中展现出巨大潜力,但我们必须解决观察到的偏见问题,特别是在性别和年龄组之间。只有这样才能确保这些技术对所有患者都是安全和有效的。”
该团队计划进一步扩大研究范围,纳入更多种族变量如肤色,以全面评估 AI 模型在临床场景中的公平性和可靠性。这项研究为开发更公平、可信赖的医疗 AI 系统提供了重要指导。
研究结果已发表在《健康数据科学》期刊,为医疗 AI 领域的发展提供了新的思考方向。随着 AI 技术在医疗诊断中的广泛应用,解决模型偏见问题将成为确保医疗公平性的关键。
正文完