共计 2171 个字符,预计需要花费 6 分钟才能阅读完成。
大语言模型(Large Language Models, LLMs)作为生成式人工智能(Generative AI)的一种形式,在回答医学和非医学领域的问题上展现了显著的能力。例如,Google 开发的 LLM Med-PaLM 2 在美国医学执照考试(USMLE)风格的医学问题中,正确率达到了 86.5%。这些系统在医学写作、教育和诊断等领域的应用取得了成功,并有望在临床环境中发挥变革性作用。
鉴于 LLMs 能够整合广泛的领域特定知识,它们作为通用辅助系统或代理用于回答临床问题的潜力备受关注。因此,LLMs 可能在未来提供医疗建议并参与临床决策过程。自 2022 年底 LLMs 性能显著提升以来,早期评估研究显示,诸如 OpenAI 的 ChatGPT、Meta 的 Llama 和 Google 的 PALM 等系统在回答医学问题方面表现卓越。特别是在放射肿瘤学这一高度专业化和技术化的领域,生成式 AI 的应用具有巨大潜力。
然而,这些评估研究大多在测试环境中使用预先设计的问题进行,无法准确反映现实生活中的临床情况。来自临床实践的医学问题通常是开放式的,支持证据有限,因此目前的研究结果并不能完全代表 LLMs 在临床实践中的表现。
与此同时,LLMs 的性能正在迅速提升。一方面,LLMs 变得更大、更强(例如,GPT-3.5 包含 1750 亿个参数,而 GPT-4 则超过 1.5 万亿),另一方面,更小、优化和更高效的模型正在开发中。这些较小的模型需要更少的计算能力,并且可以在临床环境中本地运行,无需依赖外部服务器(例如,ChatGPT、Anthropic 的 Claude 或 Google 的 Gemini 使用的服务器)。
本研究旨在评估 Llama3-OpenBioLLM-70B 这一现代最先进的开放医学 LLM 在回答现实生活中的临床问题时的表现。该模型可以在本地环境中安全运行。研究由国际放射肿瘤学信息学会(ISROI)和德国放射肿瘤学会(DEGRO)合作进行,并将 LLM 的答案与多中心观察性评估研究中临床专家的答案进行了比较。
研究分为三个阶段。在第一阶段,参与的放射肿瘤科医生从临床实践中收集问题。在第二阶段,临床专家和医学 LLM 分别回答这些问题。在第三阶段,参与医生在盲审中评估了专家和 LLM 给出的答案。
研究使用了基于互联网的开源平台 Smart Oncology(Wemedoo AG)来收集问题、提交临床专家的回答,并进行医生对答案的评估。
参与医生来自 ISROI 成员和 DEGRO 的数字化和人工智能焦点小组。在 2024 年 5 月 22 日至 6 月 16 日的 8 周内,来自欧洲 10 家医院的 20 名放射肿瘤科医生收集了问题。这些医院包括伯尔尼大学医院、温特图尔州立医院、阿劳州立医院、圣加仑州立医院、苏黎世大学医院、洛桑大学医院、博尔扎诺州立医院、图宾根大学医院、慕尼黑工业大学和埃尔兰根大学医院的放射治疗科。参与医生包括住院医生和高级医生。
医生们被要求记录他们在日常临床实践中遇到的问题,并假设诊所已经提供 AI 代理,他们会向 AI 提出哪些问题。由于伦理和数据隐私问题,医生们被指示不要记录包含患者个人信息的问题。问题需用英语记录。
在收集的问题中,使用 Python 实现的伪随机数生成算法随机选择了 50 个问题进行研究。问题被分配到以下主题类别:“前列腺”、“头颈”、“妇科”(包括乳腺癌)、“泌尿生殖”(不包括前列腺癌)、“中枢神经系统”、“肺”、“姑息治疗”和“其他”。
从 ISROI 和 DEGRO 社区中选择了三名在放射肿瘤学方面具有深厚知识的放射肿瘤科医生作为临床专家来回答问题。临床专家在回答问题时可以查阅医学文献或进行互联网研究,但不得使用任何形式的生成式 AI(如 ChatGPT)。每个问题的难度在 5 点 Likert 量表上评分,问题被分类为简单、中等或困难。
同样的问题也由经过医学微调的 Llama3 LLM OpenBioLLM-70B 回答。该 LLM 在多个医学问答基准(如 MedMCQA、MMLU Medicine 和 PubMedQA)中表现出色,并且可以在本地系统上运行。模型在配备 Apple M2 Max 的 Mac Studio 上运行,使用标准化提示生成答案。
通过伪随机数生成算法随机打乱答案的顺序,准备问题 - 答案集进行评估。答案没有标明来源(即临床专家或 LLM)。问题 - 答案集返回给参与医生进行评估。每个答案由提交问题的医生和随机选择的独立参与医生独立评估。
医生在 5 点 Likert 量表上对每个答案的质量进行评分,并标记答案是否可能有害。他们还指出答案是由人类还是 AI 给出的。
分析使用 R(版本 4.4.2)进行。连续变量以中位数和 IQR 表示,分类变量以计数表示。使用 Wilcoxon 符号秩检验比较 LLM 和临床专家答案的质量,并使用混合效应线性回归分析问题难度对答案质量的影响。
共有 16 名参与医生收集了 133 个问题。随机选择的 50 个问题大多被分类为“前列腺”(11/50,22%)、“妇科”(7/50,14%)、“姑息治疗”(7/50,14%)和“其他”(9/50,18%)。问题的难度为 5 点 Likert 量表的 2.67 分(IQR 2.33-3.33),大多数问题(22/50,44%)为中等难度。
与 LLM 生成的答案相比,临床专家的答案显著更短(中位数 16.67,IQR 11.25-19.96 vs 中位数 35.50,IQR 20.00-40.08 字;_P_<.001)。
总体而言,LLM 的答案被认为与平均临床专家答案一样好或更好的有 27 例(54%)。在 19 例(38%)中,LLM 的答案被认为至少与“最佳临床专家”一样好。在 9 例(18%)中,LLM 的答案被认为比所有 3 名临床专家的答案差,在 2 例(4%)中,LLM 的答案被认为比所有 3 名临床专家的答案更好。50 个答案中有 40 个(80%)被评为“可接受”、“好”或“非常好”。
在不同主题组中,LLM 的质量评分高于临床专家平均质量的有“中枢神经系统”和“其他”,低于“头颈”、“妇科”、“前列腺”、“肺”、“姑息治疗”和“泌尿生殖”。关于难度类别,LLM 与平均临床专家的评分分别为简单问题 4.00 vs 3.73,中等问题 3.00 vs 3.65,困难问题 3.31 vs 3.49。
临床专家给出的答案的质量评分中位数为 3.67(IQR 3.33-4.00),而 LLM 给出的答案的质量评分中位数为 4.00(IQR 3.00-4.00)。虽然 LLM 与平均临床专家答案之间没有统计学上的显著差异,但临床专家之间的变异性很大,其中一名临床专家提供的答案质量显著高于 LLM。
根据问卷审查员,LLM 给出的 50 个答案中有 8 个(16%)被认为“有害”,而临床专家给出的 150 个答案中有 19 个(13%)。这种差异没有统计学意义。