大型语言模型在AI干预性RCT评估中的表现分析

5次阅读
没有评论

共计 838 个字符,预计需要花费 3 分钟才能阅读完成。

大型语言模型(LLMs)在评估研究一致性方面展现出显著潜力。此前,研究人员利用 LLMs 评估随机对照试验(RCT)摘要是否符合 CONSORT-Abstract 指南。然而,LLMs 在评估人工智能(AI)干预性 RCT 是否符合 CONSORT-AI(《临床试验报告统一标准 - 人工智能》)标准的一致性尚不明确。

本研究旨在通过基于 LLMs 的聊天机器人,评估 AI 干预性 RCT 与 CONSORT-AI 标准的一致性。这项横断面研究使用 6 种 LLM 模型评估 AI 干预性 RCT 的一致性。样本选自《JAMA Network Open》发表的文章,共包括 41 项 RCT。所有查询均通过应用程序编程接口提交给 LLMs,温度设置为 0 以确保确定性响应。

大型语言模型在 AI 干预性 RCT 评估中的表现分析

研究发现,基于《JAMA Network Open》作者和我们的结果,gpt-4‐0125-preview 的平均 OCS 最高(分别为 86.5%,95% CI 82.5%‐90.5% 和 81.6%,95% CI 77.6%‐85.6%),其次是 gpt-4‐1106-preview(分别为 80.3%,95% CI 76.3%‐84.3% 和 78.0%,95% CI 74.0%‐82.0%)。表现最差的模型是 gpt-3.5-turbo-0125(分别为 61.9%,95% CI 57.9%‐65.9% 和 63.0%,95% CI 59.0%‐67.0%)。

在 CONSORT-AI 的 11 个独特项目中,项目 2(“在输入数据层面说明纳入和排除标准”)在 6 个模型中的整体评价最差,平均 OCS 为 48.8%。其他项目中,6 个模型平均 OCS 超过 80% 的包括项目 1、5、8 和 9。

结论显示,GPT- 4 变体在评估 RCT 与 CONSORT-AI 标准一致性方面表现出色。然而,优化提示词可以进一步提高结果的精确性和一致性。尽管 GPT- 4 等 AI 工具具有重要价值,但在处理复杂任务(如符合 CONSORT-AI 标准)时尚未完全自主。因此,将 AI 与更高层次的人类监督和专业知识结合,对于确保更可靠和高效的评估至关重要,从而提升医学研究的质量。

正文完
 0
admin-gah
版权声明:本文于2025-09-27转载自Journal of Medical Internet Research,共计838字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码