共计 1757 个字符,预计需要花费 5 分钟才能阅读完成。
在人工智能飞速发展的今天,一项针对顶级学术会议的审查却揭露了一个颇具讽刺意味的现象:被誉为 AI 领域“奥斯卡”的神经信息处理系统会议上,竟出现了由 AI 生成的虚假参考文献。这些捏造的引用,被称为“幻觉引用”,正悄然侵蚀着学术研究的可信基石,也为我们敲响了警钟——在拥抱 AI 加速科研的同时,如何守护学术诚信的底线?
据《财富》杂志报道,AI 检测平台 GPTZero 对 NeurIPS 会议论文进行了一次深入的“压力测试”。结果显示,在审查的 51 篇论文中,竟然发现了整整 100 处“幻觉引用”。尽管会议主办方表示,存在此类问题的论文仅占投稿总量的约 1.1%,其核心科学内容可能依然有效。但我们必须看到,每篇论文通常引用数十篇文献,整个会议的参考文献总量更是高达数万。这个微小的百分比背后,是海量虚假信息对学术生态的潜在污染。
GPTZero 的这项审查,直指当前顶尖 AI 学术会议在“投稿海啸”下面临的同行评审危机。早在 2025 年 5 月,一篇题为《人工智能会议同行评审危机》的论文就已警告,机器学习领域论文数量的爆炸式增长,已经超出了传统严谨评审流程的承载能力。评审者们在有限的时间内,难以对每篇论文的数十处引用进行逐一核实。
那么,这些“幻觉引用”究竟有何危害?在学术界,引用绝非简单的罗列,它是学术观点的基石、研究可复现性的框架,更是衡量学术影响力的“硬通货”。当一篇根本不存在的 2018 年研讨会论文,被 AI 凭空捏造出看似合理的作者和标题时,这个“学术幽灵”便会悄无声息地渗入 Semantic Scholar、OpenAlex 等学术数据库。其下游影响包括扭曲的文献计量分析、误导后续研究者的检索,甚至在极端情况下,导致整个研究成果因无法溯源而丧失可信度。
“幻觉引用”是生成式 AI 模型的固有缺陷。大型语言模型擅长根据模式生成流畅、合乎语境的文本,但在缺乏事实核查能力的情况下,它们只会“预测”下一个最可能出现的引用格式,而非去验证其真实性。这常常表现为虚构的会议名称、无效的数字对象标识符,以及与真实论文标题高度相似但实则子虚乌有的篇名。
漏洞之所以能穿透严格的同行评审防线,根源在于系统性的压力。评审者的核心职责是评估研究的新颖性、方法正确性和论述逻辑,而非充当“文献侦探”。在投稿量暴增的背景下,对引用准确性这类“边缘但关键”细节的审查极易出现疏漏。GPTZero 在报告中强调,其目的并非指责评审者,而是量化 AI 生成错误在学术生产链条中的渗入点。
更深层的背景,是生成式 AI 在科研写作中的普及已成大势所趋。多项 2023 年以来的调查显示,研究人员已广泛使用 ChatGPT 等工具进行文本润色、摘要生成甚至初稿撰写。尽管许多会议鼓励“负责任地使用并披露 AI 辅助”,但具体规范和执行标准却参差不齐。在紧迫的截止日期和复杂的团队协作中,细微的差错极易生根发芽。
面对这一系统性挑战,我们并非束手无策。可行的“防火墙”方案其实已经清晰:
此次 NeurIPS 的“幻觉引用”事件,更像是一次对 AI 科研可信度的压力测试。它警示我们,如果最懂 AI 技术的专家社区都未能完全免疫于此类错误,那么企业、政策制定者和公众更需重新校准对大模型能力的认知——既要善用其效率优势,也必须为其设置必要的“护栏”。
最终的解决方案清晰而直白:将生成模型与强大的检索系统相结合,在流程中强制加入机器检查环节,并永远保留人类专家验证的最后一道关口。讽刺可以成为头条,但教训必须转化为行动。对 AI 辅助科研的信任,不应通过因噎废食地禁用工具来建立,而应通过精心设计并严格执行的工作流程来赢得,让“幻觉”无处滋生,让诚信成为标准。