共计 3517 个字符,预计需要花费 9 分钟才能阅读完成。
在工程学院时,我有一位教授喜欢出一些误导性的作业题。他会提出一些与当前主题相关性存疑的问题,希望这会让我们失去焦点,或者提供一个让我们陷入不必要研究的干扰。
以下是他可能会问的问题类型的一个例子。他的问题要难得多,且更偏向工程学,但我使用了这个具体问题,因为它直接与我们即将讨论的研究相关:
奥利弗在周五摘了 44 个猕猴桃。然后在周六摘了 58 个猕猴桃。周日,他摘了周五两倍的猕猴桃,但其中有五个比平均尺寸小一些。奥利弗有多少个猕猴桃?
我教授的目标是帮助我们识别与当前项目相关的内容,并帮助我们学会忽略或搁置所有做研究时自然产生的干扰。
对于一年级的工程师来说,这最初是一系列非常痛苦但最终非常有用的课程。
我之所以想起这个挑战,是因为本月由苹果 AI 和机器学习研究团队领导的一篇研究论文,由高级总监 Samy Bengio 和杰出科学家 Oncel Tuzel 领导。
他们的论文《GSM-Symbolic: 理解大型语言模型中数学推理的局限性》包含了上述数学问题。如果你看这个问题,“但其中有五个比平均尺寸小一些”这句话应该对总体猕猴桃数量没有影响。
研究人员发现,像 OpenAI 的 GPT-40-mini、GPT-40、o1-mini 和 o1-preview 这样的大型语言模型(LLMs)容易受到涉及推理而非高级文本处理的问题的影响。
现在,公平地说,我在 ChatGPT GPT-4o 上运行了这个查询,它正确回答了。这并不意味着苹果的结论是错误的,只是 ChatGPT 正确处理了这个问题。
另一方面,我们都知道 AI 可能会轻松地回答一些关于新西兰奥托罗杭阿夜晚森林中蹒跚而行的几维鸟数量的讨论。
因此,苹果研究的最终结论是 LLMs 无法进行真正的推理,而是依赖于模式匹配。
在某种程度上,这是一个告诉我们一些我们不知道的事情的结论。即便如此,有像苹果这样高水平的研究人员通过科学方法确认这一点也是好的。接下来,让我们深入探讨科学。
事实证明,要求 ChatGPT 将宪法翻译成海盗语言并不是测试 LLMs 的全面方法,即使这确实能带来一段愉快的时光。
相反,研究人员开发了远不那么有趣但更有效的 AI 测试框架,旨在衡量语言模型评估数学问题的能力。
2021 年,OpenAI 推出了 GSM8K,一个用于评估 LLMs 推理能力的基准数据集。这个缩写告诉我们数据集包含的内容:8000 个小学数学问题。
当应用于 AI 时,该数据集帮助研究人员确定 AI 的准确性,以及它是否能像基本数学一样解决推理问题。GSM8K 被认为是评估 LLMs 数学推理能力的黄金标准,特别是在算术和文字问题上。
因为它开源,GSM8K 也被广泛用于 AI 领域(无论是在 OpenAI 内部还是外部),以测试需要逐步推理的任务。它具有清晰的问题结构,这使其成为 AI 研究人员在 LLMs 早期测试中的可信工具。
另一方面,苹果研究人员认为这个数据集存在根本性缺陷。他们认为 GSM8K 的测试结果可能对给定 LLM 的能力给出了过于乐观的看法。这是因为测试集基于固定且熟悉的问题,这些问题可能已在 LLM 的训练集中使用过。
上述论文引入了一个新的数据集 GSM-Symbolic,研究人员称其克服了 GSM8K 的局限性。GSM-Symbolic 提供了更多样化和复杂的问题,防止 LLMs 依赖存储的训练数据。
论文提到,像 Google 的 Gemma2-9B 这样的模型在使用两个基准数据集时显示出显著不同的结果。Gemma2-9B 能够正确解决 OpenAI 的 GSM8K 数据集中的问题,但在接受苹果的 GSM-Symbolic 测试集时,准确率下降了 15%。
苹果研究人员发现,随着问题复杂性的增加(他们称之为“添加条款”),准确性下降。这一指标在 GSM8K 中未显示,因为数据是固定的。根据苹果的说法,显示出高准确性(在 80-90% 范围内)的模型在条款数量增加时可能会下降到 40% 的范围。
苹果认为 GSM8K 存在数据污染的风险,这意味着模型可能在数据集的部分内容上进行了训练。GitHub 托管了 GSM8K 数据集,已被用于帮助训练 LLMs。
使用 GitHub 进行训练数据从未让我觉得是个好主意。我的 GitHub 仓库中有旧代码,我非常清楚它的漏洞。我不希望用它作为示例代码来训练我的学生,更不用说用它来教我们依赖的 AI 给出好答案。
无论如何,苹果的 GSM-Symbolic 似乎不是开源的。因此,尽管苹果研究人员认为它是测试 LLMs 的更好解决方案,但你无法访问它,除非你在苹果的正确团队工作。
这一切意味着什么?
我的一部分对苹果发表这篇论文的动机持怀疑态度,因为它似乎是对 OpenAI 的一种超级书呆子式的竞争比较打击,特别是考虑到苹果正在推出自己的 AI 产品。
另一方面,苹果计划在其 Apple Intelligence 产品中包含 ChatGPT,因此将纯粹的竞争或顽固性作为发表这篇论文的理由似乎不合适。因此,我相信动机可能就是它们表面上看起来那样:对提高学习模型性能和准确性的真正学术兴趣。
这项研究证明了我们一直以来都知道的事情:LLMs 在模式匹配方面比逻辑推理方面表现更好。它们在训练和处理中使用模式识别,而不是实际的演绎。世界上如此多的信息可以通过模式识别令人信服地呈现出来,这一事实令人震惊,但它仍然不能让我们拥有真正能推理的计算机。
数学推理是不可靠的。苹果研究人员用作失败测试的例子在我测试时通过了。这并不是说苹果团队是错的,但它说明了 AI 是不一致且不断进化的。因此,依赖 LLMs 进行数学结果并不一定是一个实际的方法。如果你想要好的数学,使用老式的算法和传统的软件工程测试和验证方法,或者至少双检查 AI 给你的结果。
另一个考虑在生产场景中依赖 LLM 数据的担忧是随着复杂性增加的准确性下降。虽然这种模式确实准确反映了人类处理数据的方式(越复杂,我们得到的头痛越多),LLMs 和我们的区别在于我们确实进行实际推理。
那么,苹果论文中的研究结果对业务有什么影响?接下来是。
除非你一直戴着玫瑰色的眼镜看待 AI,否则影响是显而易见的。AI 是一个有用的工具,但不要依赖它来处理复杂决策。将所有责任交给 AI 或 LLM,因为它是一项有前途的新技术,这是不明智的。
我曾多次展示过如何使用 AI 帮助我获得一些见解,但我总是通过思考分析、看看它是否符合我的内在认知,并最终做出自己的判断和决策来测试结果。AI 是一个有趣的辅助工具,但我自己的管理背景对于为自己的业务做出决策是关键。
AIs 充满了潜力。例如,我曾用它们帮助我编程。我相信 ChatGPT 去年为我节省了一个月的编程时间。但我没有依赖 AI 来设计我的代码或编写业务逻辑部分。我只是用它来给我提供非常常见的 API 接口,否则我需要花时间查找,并且很容易测试。
不要期望 AI 能取代你的主题专家。AI 可以支持人类专家的努力,但在深度推理或批判性思维方面,AIs 是不可靠的。看这样:如果你不会信任一个大学新生或你邻居的孩子来决定你的业务,也不要信任 AI。
我们知道 AIs 会产生幻觉。我们知道它们有时会根据它们得到的数据得出完全疯狂的结论。如果你的业务依赖数据做决策,不要假设 AI 会给你正确的数据。
这就引出了风险缓解:谨慎投资 AI。寻找它在战略领域表现出色的地方。
例如,在我的日常工作中,我发现 AI 在 Photoshop 的背景移除或指向我无论在房间哪个位置录制 YouTube 视频的稳定器等照片编辑能力方面提供了高回报。我也用它生成文本和图像,但从不用于关键项目。
确保你有系统确保人类监督实际上正在发生而不是滑坡。你必须不断将人类智能纳入循环,特别是在关键操作中。
将这种谨慎扩展到你的团队。每个人都一直在阅读和听到生成 AI 的奇迹,但可能没有意识到它的局限性。确保你的所有团队成员都知道像 LLMs 这样的工具只是工具。抵制自满的诱惑。
有趣的是,苹果在 Apple Intelligence 上投入了大量营销炒作,同时也展示了这项技术的局限性。在某种程度上,这种透明度是令人鼓舞的。
苹果一直在使用机器学习作为工具,定期改进其照片处理能力。但尽管这些技术使用大量数学,它们并不需要独立的人类推理。
预计苹果将继续在其供应链中大力投资 AI 技术,即使在公司内部也是如此。但我预计苹果的执行团队不会将决策权交给 LLM。
这项研究显示,随着项目复杂性的增加,LLMs 存在显著的局限性,并且苹果正在投资测试 LLMs 的极限,并将这些结果纳入其对这些新技术的依赖程度。
对于一家很少透明其底层决策的公司来说,这篇论文提供了对苹果正在进行的详细研究的引人注目的见解,以帮助其理解本十年最热门新技术的优势和局限。
你怎么看?苹果得出了正确的结论吗?你尝试过用 AI 做决策吗?你现在用 LLMs 做什么,你希望将来用它们做什么?在下面的评论中告诉我们。