OpenAI 在国际数学竞赛中摘金:AI 推理能力的重大突破

3次阅读
没有评论

共计 1674 个字符,预计需要花费 5 分钟才能阅读完成。

OpenAI 在构建能够通过复杂数学问题进行推理的 AI 模型竞赛中取得了新的里程碑。上周六,该公司宣布,其一款模型在国际数学奥林匹克竞赛(IMO)中取得了金牌级别的表现,该竞赛被广泛认为是全球最负盛名且难度最高的数学竞赛。

关键的是,获胜的模型并非专门为解决 IMO 问题而设计,这与早期的系统如 DeepMind 的 AlphaGo 不同——后者在 2016 年击败了世界顶尖围棋选手,并在一个非常狭窄的任务特定领域内通过大量数据集进行训练。相反,获胜者是一个通用推理模型,旨在通过自然语言有条不紊地思考问题。

OpenAI 在国际数学竞赛中摘金:AI 推理能力的重大突破

“这是一个 LLM 在做数学,而不是一个特定的正式数学系统,”OpenAI 在其 X 帖子中写道。“这是我们向通用智能迈进的主要推动力之一。”

目前关于所用模型的身份知之甚少。OpenAI 的研究员 Alexander Wei 在 X 帖子中称其为“实验性推理 LLM”,该帖子包括一张草莓环绕金牌的插图,暗示其建立在公司 o1 系列推理模型之上,该系列模型于 9 月首次亮相。

“明确一点:我们即将发布 GPT-5,但我们在 IMO 中使用的模型是一个独立的实验模型,”OpenAI 在 X 上补充道。“它使用了新的研究技术,这些技术将在未来的模型中体现——但我们计划在数月内不会发布具有这种能力的模型。”

IMO 始于 1959 年,每年吸引来自 100 多个国家的约 50 名参赛者;只有不到 9% 的人获得金牌。据 Wei 称,OpenAI 的实验模型解决了六道问题中的五道,并获得了 42 分中的 35 分(约 83%),赢得了金牌。模型的证明由 OpenAI 招募的三位前 IMO 金牌得主内部评估并一致同意。

每个证明包含数百行文本,代表了模型在推理过程中采取的各个步骤。根据竞赛禁止使用计算器或其他外部工具的规定,OpenAI 的模型无法访问互联网;它纯粹是通过逐步推理解决每个问题。

“模型思考了很长时间,”参与该研究项目的另一位 OpenAI 研究员 Noam Brown 在 X 帖子中写道。“o1 思考了几秒钟。深度研究思考了几分钟。这个模型思考了几个小时。重要的是,它的思考也更高效。”

据 OpenAI 称,分析师此前估计,到 2025 年,AI 系统在 IMO 中获得金牌的概率仅为 18%。

Google DeepMind 也在周一宣布,“Gemini 深度思考的高级版本”——Gemini 2.5 Pro 的推理模式,于 5 月首次亮相——在 2025 年 IMO 中也取得了金牌级别的表现,获得了与 OpenAI 报告的相同分数。Google DeepMind 的 AI 研究员 Thang Luong 在周一质疑 OpenAI 的结果,声称如果根据 IMO 的内部评分指南而非内部评审团进行评判,其结果将略低于金牌门槛。

尽管 AI 具备令人印象深刻的能力,但它长期以来一直在简单的算术和基本数学应用题上挣扎——这些任务人们可能认为对于高级算法来说应该相对简单。但与更狭窄的逻辑谜题不同,数学需要一定程度的抽象推理和概念转换,这超出了大多数 AI 系统的能力范围。

然而,这种情况正在以极快的速度改变。一年多前,AI 模型仍在使用小学水平的数学基准如 GSM8K 进行评估。像 o1 和 DeepSeek 的 R1 这样的推理模型迅速脱颖而出,首先在高中水平的基准如 AIME 中表现出色,然后发展到大学水平及更高。

高水平数学能力已成为推理模型的黄金标准,因为即使是少量的幻觉或走捷径也会迅速且明显地破坏模型的输出。在生成其他类型的响应时,例如帮助撰写文章,更容易蒙混过关,因为它们通常对各种解释持开放态度。

OpenAI 的 IMO 金牌表明,可扩展的通用推理方法可以在长期以来被认为超出当前 AI 系统能力的任务中超越特定领域的模型。事实证明,不需要构建像 AlphaGo 那样专注于数学的模型;只要训练它们解析语言并仔细推理其思维过程,如果给予足够的时间,它们将能够构建出与世界级人类数学家相媲美的 AI 系统。

据 Brown 称,整个 AI 行业的创新速度表明,其数学和推理能力只会从这里开始增长。“我完全预计这一趋势将继续,”他在 X 上写道。“重要的是,我认为我们即将看到 AI 在科学发现中做出实质性贡献。”

想了解更多关于 AI 的故事?订阅创新,我们的每周通讯。

正文完
 0
admin-gah
版权声明:本文于2025-07-22转载自Zdnet,共计1674字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码