共计 542 个字符,预计需要花费 2 分钟才能阅读完成。
本研究通过比较大型语言模型(LLMs)在不同知识领域和错误类型分类下的表现,评估其在正畸学中的局限性。研究使用了来自中国国家正畸专家资格考试的 396 道文本题目,对 Deepseek-R1(DS)和 ChatGPT-4(GPT)进行了评估。
题目通过双重分类法进行分类:(1)“知识领域”,包括基础生物力学原理、跨学科医学整合、专业正畸理论和临床决策技能;(2)“错误类型”,包括事实不准确、逻辑缺陷和语义误解。
研究结果显示,DS 在总体准确率上显著高于 GPT(80.3% vs 52.3%,_p_<0.001),在基础知识(79.8% vs 43.4%)和跨学科领域(81.0% vs 53.0%)上表现出统计学上的显著差异。事实错误在两种模型中均占主导地位(DS:57.7%,GPT:69.3%),尽管 DS 表现出更高的逻辑错误率(24.4% vs 16.4%)。
尽管 DS 在一般正畸知识评估中优于 GPT,但两种模型在需要临床推理的专业领域中均显示出局限性。DS 在标准化考试中的优异表现表明,在正畸培训和资格评估中,人工智能辅助决策支持具有潜力。然而,持续存在的事实错误和特定领域的局限性强调了在实际应用中临床医生验证的必要性。将特定领域的知识精炼与逻辑推理模块相结合,可以增强 LLMs 在正畸实践中的临床效用。