共计 491 个字符,预计需要花费 2 分钟才能阅读完成。
近日,一项由上海科技大学助理教授万志宇领导的国际研究团队在《健康数据科学》杂志发表了突破性研究成果。该研究揭示了多模态大语言模型(如 ChatGPT-4 和 LLaVA)在皮肤疾病诊断中存在的潜在偏见,为医疗 AI 系统的公平性发展提供了重要参考。
研究团队通过对约 10,000 张皮肤镜图像的系统性评估,重点关注了三种常见皮肤疾病:黑色素瘤、黑色素细胞痣和良性角化样病变。结果显示,虽然 ChatGPT-4 和 LLaVA 在诊断准确率上优于传统深度学习模型,但在人口统计学群体中表现存在显著差异。
研究发现,ChatGPT-4 在诊断公平性方面表现更佳,而 LLaVA 则显示出明显的性别相关偏见。这一发现凸显了 AI 模型在医疗应用中的潜在风险,特别是在性别和年龄等人口统计学因素方面。
万志宇博士强调:“我们必须重视这些观察到的偏见问题,确保 AI 技术对所有患者都是安全和有效的。”研究团队计划进一步纳入更多人口统计学变量,如皮肤色调等,以全面评估 AI 模型的临床可靠性和公平性。
这项研究为开发更公平和可信赖的医疗 AI 系统提供了关键指导,同时也提醒医疗界在使用 AI 诊断技术时需要保持警惕,确保技术的公平性和可靠性。
正文完