AI推理真相揭秘:研究团队如何破除行业炒作

2次阅读
没有评论

共计 2070 个字符,预计需要花费 6 分钟才能阅读完成。

研究人员最近详细揭示了语言模型的“思维链”实际上在做什么。自从人工智能程序开始给公众留下深刻印象以来,AI 学者们一直在为这项技术的更深层次意义提出主张,甚至断言其具有类似人类理解的前景。学者们之所以变得哲学化,是因为即使是创建了 AI 模型(如 OpenAI 的 GPT-5)的科学家,也不完全理解这些程序的工作原理。

像 LLM(大语言模型)这样的 AI 程序是出了名的“黑匣子”。它们取得了许多令人印象深刻的成就,但在大多数情况下,当它们接受输入(例如你输入的提示)并产生输出(例如你请求的大学学期论文或新小说的建议)时,无法观察到它们所做的一切。

AI 推理真相揭秘:研究团队如何破除行业炒作

在缺乏理解的情况下,科学家们使用了“推理”等通俗术语来描述这些程序的执行方式。在这个过程中,他们要么暗示,要么直接断言这些程序可以像人类一样“思考”、“推理”和“知道”。

在过去两年中,随着 AI 高管们使用夸张的言辞来扭曲简单的工程成就,这种修辞已经超越了科学。OpenAI 在去年九月的新闻稿中宣布其 o1 推理模型时表示:“类似于人类在回答难题之前可能会思考很长时间,o1 在尝试解决问题时使用思维链”,因此“o1 学会磨练其思维链并改进其使用的策略”。

从这些拟人化的断言到各种疯狂的说法,只有一步之遥,例如 OpenAI CEO Sam Altman 在六月发表的评论:“我们已经越过了事件视界;起飞已经开始。人类即将构建数字超级智能。”

然而,AI 科学家们正在通过严格的技术审查来揭穿类似人类智能的假设,反弹正在形成。在上个月发表在 arXiv 预印服务器上且尚未经过同行评审的论文中,作者——亚利桑那州立大学的 Chengshuai Zhao 及其同事——通过一个简单的实验拆解了这些推理主张。他们的结论是,“思维链推理是一种脆弱的幻象”,并且它“不是真正的逻辑推理机制,而是一种复杂的结构化模式匹配形式”。

“思维链”(CoT)这个术语通常用于描述当你看到一个大型推理模型(如 GPT-o1 或 DeepSeek V1)在给出最终答案之前展示其如何解决问题时所看到的冗长输出流。Zhao 和团队写道,这种陈述流并不像看起来那样深刻或有意义。“CoT 推理的经验成功导致人们认为大语言模型(LLM)参与了有意的推理过程,”他们写道。

但是,“越来越多的分析表明,LLM 倾向于依赖表面语义和线索,而不是逻辑程序,”他们解释道。“LLM 根据学习到的标记关联构建表面的逻辑链,通常在偏离常识启发式或熟悉模板的任务上失败。”

为了测试 LLM 仅仅是模式匹配而非真正推理的假设,他们从头开始训练了 OpenAI 2019 年的开源 LLM GPT-2,这种方法被称为“数据炼金术”。该模型从头开始训练,仅操纵英语字母表中的 26 个字母,“A, B, C,…等。”这个简化的语料库让 Zhao 和团队能够通过一组非常简单的任务来测试 LLM。所有任务都涉及操纵字母序列,例如,将每个字母移动一定数量的位置,使“APPLE”变为“EAPPL”。

使用有限的标记和有限的任务,Zhao 和团队在训练数据中让语言模型接触到的任务与在测试完成的模型时看到的任务不同,例如,“将每个元素移动 13 个位置。”这是测试语言模型在面对新的、从未见过的任务时是否能够推理出执行方法。

他们发现,当任务不在训练数据中时,语言模型无法通过思维链正确完成这些任务。AI 模型尝试使用其训练数据中的任务,其“推理”听起来不错,但生成的答案是错误的。正如 Zhao 和团队所说,“LLM 试图根据训练期间看到的最相似的推理路径进行概括,这导致了正确的推理路径,但错误的答案。”

作者总结了一些教训。首先:“警惕过度依赖和虚假信心,”他们建议,因为“LLM 产生‘流畅的废话’——看似合理但逻辑上有缺陷的推理链——的能力可能比直接错误的答案更具欺骗性和破坏性,因为它投射出虚假的可靠性光环。”此外,尝试那些明确不太可能包含在训练数据中的任务,以便对 AI 模型进行压力测试。

Zhao 和团队方法的重要性在于,它穿透了夸张的言辞,让我们回到了理解 AI 究竟在做什么的基础。当关于思维链的原始研究,即“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”,由 Google 的 Google Brain 团队的 Jason Wei 及其同事在 2022 年进行时——该研究已被引用超过 10,000 次——作者并未对实际推理做出任何主张。

Wei 和团队注意到,提示 LLM 列出问题中的步骤,例如算术文字问题(“如果罐子里有 10 块饼干,Sally 拿出一块,罐子里还剩多少块?”),往往会带来更多正确的解决方案。他们谨慎地没有断言类似人类的能力。“尽管思维链模仿了人类推理者的思维过程,但这并不能回答神经网络是否真的在‘推理’,我们将其留作一个开放的问题,”他们当时写道。

从那时起,Altman 的主张和 AI 推广者的各种新闻稿越来越强调使用随意和马虎的言辞来强调类似人类的推理性质,这并不尊重 Wei 和团队的纯粹技术描述。Zhao 和团队的工作提醒我们,应该具体而非迷信地看待机器真正在做什么,并避免夸张的说法。

正文完
 0
admin-gah
版权声明:本文于2025-09-06转载自Zdnet,共计2070字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码