共计 731 个字符,预计需要花费 2 分钟才能阅读完成。
近年来,大语言模型(LLMs)的快速发展为医疗领域带来了新的可能性,尤其是在临床决策和患者管理方面。本研究旨在评估两种 LLMs——非推理生成预训练 Transformer(GPT)-4o 和推理模型 o3-mini-high——在支持妇科癌症患者急诊护理中的可行性。
这项回顾性、单中心研究选取了 15 例妇科肿瘤急诊病例。两名妇科肿瘤研究员、两名妇产科住院医师、GPT-4o 和 o3-mini-high 通过四个步骤评估每个病例:提供鉴别诊断和建议相关检查;解释检查结果、确立诊断并提出治疗方案;开具医嘱;生成患者教育材料(仅限 LLMs)。对回答的相关性和速度进行评分,并使用配对测试和自举法估计平均差异(MDs)和 95% 置信区间(CIs)。
研究结果显示,LLMs 完成任务的速度显著快于医生,每个模型平均减少约 300 秒(_P_<0.001)。GPT-4o 的总分高于医生(MD, 3.55; 95% CI, 2.98–4.10; _P_< 0.001),在排除速度指标后仍保持优势(MD, 1.27; 95% CI, 0.80–1.79; _P_< 0.001)。o3-mini-high 的总分也优于医生(MD, 3.05; 95% CI, 1.98–3.88; _P_< 0.001),但在速度指标上未表现出优势。LLM 生成的管理方案满意度评分为 GPT-4o 1.9/2.0,o3-mini-high 1.8/2.0。
结论表明,GPT-4o 和 o3-mini-high 都是妇科癌症患者急诊护理的可行工具。GPT-4o 可能提供优势,反映了该领域急诊护理的模式化结构。LLM 的选择应基于所需的特定领域医学知识,而不是推理状态或模型版本。需要进一步的前瞻性多中心研究来证实这些发现以及 LLMs 在妇科癌症急诊护理中的临床效果。