大型语言模型在神经病学领域的应用与优化

44次阅读
没有评论

共计 684 个字符,预计需要花费 2 分钟才能阅读完成。

随着大型语言模型(LLMs)与实时网络检索的结合,临床医生和患者查找医学证据的方式正在发生革命性变化。主要搜索引擎将 LLMs 整合到其界面中,这种混合方法可能成为互联网的新“门户”。然而,开放网络检索使模型暴露于非专业来源,可能导致幻觉和事实错误,从而危及循证护理。

本研究旨在量化指南领域白名单对三个公开可用的 Perplexity 网络检索增强生成(RAG)模型答案质量的影响,并将其与一个专门构建的生物医学文献 RAG 系统(OpenEvidence)的性能进行比较。

大型语言模型在神经病学领域的应用与优化

研究应用了来自美国神经病学学会(AAN)指南的 130 个问题集(65 个事实性问题和 65 个基于案例的问题)。对 Perplexity 的 Sonar、Sonar-Pro 和 Sonar-Reasoning-Pro 模型分别进行了四次查询,首先使用开放网络检索,然后限制检索范围为 aan.com 和 neurology.org(“白名单”)。OpenEvidence 也被查询了四次。两位神经科医生在盲法条件下对每个回答进行评分(0= 错误,1= 不准确,2= 正确);任何分歧由第三位神经科医生解决。使用有序逻辑模型评估问题类型和来源类别(AAN 或神经病学与非专业)对准确性的影响。

在评分的 3640 个 LLM 回答中(评分者一致性:κ=0.86),正确答案率如下(开放 vs 白名单):Sonar,60% vs 78%;Sonar-Pro,80% vs 88%;Sonar-Reasoning-Pro,81% vs 89%;OpenEvidence 的正确答案率为 82%。对七种配置的模态评分进行 Friedman 检验,结果显著(_χ_ 2 6=73.7;_P_<.001)。白名单使 Sonar 的平均准确性提高了 0.23(95% CI 0.12-0.34),Sonar-Pro 提高了 0.08(95% CI 0.01-0.16),Sonar-Reasoning-Pro 提高了 0.08(95% CI 0.02-0.13)。包含≥1 个非专业来源使 Sonar 获得更高评分的几率减半(OR 0.50,95% CI 0.37-0.66;_P_<.001),而引用 AAN 或神经病学文档则使其几率翻倍(OR 2.18,95% CI 1.64-2.89;_P_<.001)。此外,事实性问题在 Perplexity 模型中的表现优于案例问题(OR 范围为 1.95,95% CI 1.28-2.98 [Sonar + 白名单] 到 4.28,95% CI 2.59-7.09 [Sonar-Reasoning-Pro];所有_P_<.01),但 OpenEvidence 未显示出这种差异(OR 1.44,95% CI 0.92-2.27;_P_=.11)。

将检索限制在权威神经病学领域,使正确性提高了 8 到 18 个百分点,并将输出变异性减半,将消费者搜索助手升级为决策支持级别的工具,至少与专门的文献引擎表现相当。因此,轻量级来源控制是维护基于网络的 RAG 增强 LLM 适合循证神经病学的实用安全杠杆。

正文完
 0
admin-gah
版权声明:本文于2025-10-30转载自Journal of Medical Internet Research,共计684字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码