共计 699 个字符,预计需要花费 2 分钟才能阅读完成。
近期,苹果公司的六位工程师进行的一项新研究揭示了先进大型语言模型(LLM)在数学推理方面的脆弱性。这项研究显示,当面对常见基准问题的微小变化时,这些模型的表现可能变得极其不稳定。
研究结果表明,LLM 依赖于概率模式匹配,缺乏对基础数学概念的深入理解。研究人员假设:“当前的 LLM 不具备真正的逻辑推理能力,而是试图复制训练数据中的推理步骤。”
在题为“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”的预印本论文中,研究人员从 GSM8K 的标准化集合中选择了超过 8,000 个小学水平的数学应用题。他们采用了一种新颖的方法,动态替换测试集中的某些名称和数字,以避免“数据污染”。
尽管这些变化并未改变问题的实际难度,但测试结果显示,超过 20 个最先进的 LLM 在 GSM-Symbolic 上的平均准确率普遍下降,性能下降幅度在 0.3% 到 9.2% 之间。此外,在 50 次不同运行中,准确率存在高变异性,最佳和最差运行之间的准确率差距高达 15%。
研究人员指出,这种变异性表明模型并未进行“正式”推理,而是依赖于训练数据中的模式匹配。当在问题中添加无关紧要的陈述时,模型的表现更差,准确率下降幅度从 17.5% 到 65.7% 不等。
这项研究强调了在没有背后逻辑或世界模型支持的情况下进行高级推理的内在局限性。AI 专家 Gary Marcus 认为,AI 能力的下一个重大飞跃只有在神经网络能够整合真正的“符号操作”时才会到来。
总的来说,这项研究揭示了当前 AI 模型在数学推理方面的脆弱性,强调了进一步研究和改进的必要性。