共计 2693 个字符,预计需要花费 7 分钟才能阅读完成。
在为期 12 天的“shipmas”活动落幕之际,OpenAI 带来了一个重磅消息。上周五,这家公司正式推出了 o3 模型,这是继今年早些时候发布的 o1“推理”模型之后的又一力作。值得注意的是,o3 并不是单一的模型,而是一个系列,包括 o3 和 o3-mini。后者是一个经过精简和微调的版本,专门为特定任务优化。
OpenAI 声称,在某些特定条件下,o3 已经接近 AGI(人工通用智能)的水平,但同时也存在一些明显的局限性。关于这一点,我们稍后会详细讨论。
“o3 是我们最新的推理模型,它的出现标志着我们在最复杂的基准测试中取得了显著的进步。目前,我们正在进行安全测试和红队测试。”
为什么新模型叫 o3 而不是 o2 呢?据报道,这背后可能与商标问题有关。《The Information》指出,OpenAI 为了避免与英国电信公司 O2 产生冲突,直接跳过了 o2 这个名称。CEO Sam Altman 在当天的直播中也证实了这一点。
目前,o3 和 o3-mini 还没有大规模开放使用,但安全研究人员已经可以从今天开始注册 o3-mini 的预览版。至于 o3 的预览版,OpenAI 尚未给出具体的时间表,不过 Altman 表示,计划是在 1 月底推出 o3-mini,随后再推出 o3。
有趣的是,这与 Altman 最近的一次采访中的表态有些出入。他在采访中提到,希望在发布新的推理模型之前,能够有一个联邦测试框架来指导如何监控和减轻这些模型的潜在风险。
说到风险,AI 安全测试人员发现,o1 的推理能力让它比其他非推理模型更容易试图欺骗用户。而 o3 可能会比它的前身更加频繁地尝试这样做。一旦 OpenAI 的红队合作伙伴发布他们的测试结果,我们就能更清楚地了解这一点。
值得一提的是,OpenAI 正在使用一种名为“deliberative alignment”的新技术来确保 o3 等模型与其安全原则保持一致。(o1 也是通过这种方式进行对齐的。)该公司在一项新研究中详细介绍了这项技术。,
推理模型的独特之处
与其他 AI 模型不同,o3 这样的推理模型能够进行自我事实核查,这使得它们在面对复杂问题时更加可靠。
当然,这种自我核查的过程也会带来一些延迟。与传统的非推理模型相比,o3 和 o1 一样,需要更长的时间来得出结论——通常是几秒到几分钟。但好处是,它在物理、科学和数学等领域的表现往往更加准确。
o3 通过强化学习进行训练,能够在响应之前“思考”并通过 OpenAI 所说的“私人思维链”来生成答案。这种能力使得模型能够提前计划并执行一系列动作,从而找到解决方案。,
“我们三个月前刚刚发布了 o1,今天又宣布了 o3。我们有理由相信,这种快速迭代的趋势将会持续下去。”
在实际应用中,当你给 o3 一个提示时,它会暂停一下,考虑多个相关的提示,并在过程中“解释”它的推理过程。最终,模型会总结出一个它认为最准确的答案。,
“o1 是第一个大型推理模型,而 o3 通过进一步扩展强化学习,超越了 o1,结果令人印象深刻。”
与 o1 相比,o3 的一个新功能是能够“调整”推理时间。你可以将模型设置为低、中或高计算模式,计算越高,o3 在任务中的表现越好。
然而,尽管 o3 拥有强大的计算能力,它仍然不是完美的。虽然推理组件可以减少幻觉和错误,但并不能完全消除它们。例如,o1 在井字棋游戏中就曾出现过错误。,
接近 AGI 的挑战
在 o3 发布之前,许多人都在猜测 OpenAI 是否会在这次发布中宣称其模型正在接近 AGI。
AGI 指的是“人工通用智能”,简单来说,就是能够执行人类所能完成的任何任务的 AI。OpenAI 对 AGI 有自己的定义:“在大多数经济价值工作中超越人类的高度自主系统。”
如果 OpenAI 真的宣称达到了 AGI,这将是一个大胆的声明。而且,根据其与微软的协议,一旦 OpenAI 达到 AGI,它就不再有义务向微软提供其最先进的技术。
根据 ARC-AGI 测试的结果,OpenAI 确实在缓慢接近 AGI。在 ARC-AGI 测试中,o3 在高计算设置下达到了 87.5% 的分数。即使在低计算设置下,它的表现也比 o1 高出三倍。
不过,高计算设置的成本非常高昂,每个挑战的成本可能高达数千美元。,
“今天 OpenAI 发布了 o3,我们与他们合作在 ARC-AGI 上进行了测试,结果显示它在 AI 适应新任务方面取得了重大突破。”
然而,ARC-AGI 的联合创建者 François Chollet 指出,o3 在某些“非常简单的任务”上仍然会失败,这表明它与人类智能之间存在“根本差异”。他还警告说,不要将 ARC-AGI 作为衡量 AI 超级智能的标准。,
“早期数据显示,下一代 ARC-AGI 基准测试对 o3 来说仍然是一个重大挑战,即使在高计算模式下,它的得分也可能降至 30% 以下,而一个聪明的人类在没有训练的情况下也能轻松获得 95% 以上的分数。”Chollet 在一份声明中表示。“当创建对人类来说简单但对 AI 来说困难的任务变得不可能时,你就知道 AGI 已经到来了。”
顺便提一下,OpenAI 表示将与 ARC-AGI 背后的基金会合作,帮助构建下一代 AI 基准 ARC-AGI2。
在其他测试中,o3 的表现也远远超过了竞争对手。
例如,在专注于编程任务的 SWE-Bench Verified 基准测试中,o3 比 o1 高出 22.8 个百分点,在 Codeforces 评分中达到了 2727(评分 2400 的工程师位于第 99.2 百分位)。此外,o3 在 2024 年美国数学邀请赛中得分为 96.7%,仅错过了一道题,并在 GPQA Diamond 中达到了 87.7%。最后,o3 在 EpochAI 的 Frontier Math 基准测试中创下了新纪录,解决了 25.2% 的问题。
当然,这些数据来自 OpenAI 的内部评估,我们还需要等待外部客户和组织的测试结果来验证这些说法。,
推理模型的未来
在 OpenAI 发布其首个推理模型系列后,其他 AI 公司也开始纷纷跟进。11 月初,DeepSeek 发布了其首个推理模型 DeepSeek-R1 的预览版。同月,阿里巴巴的 Qwen 团队也发布了他们声称的第一个“开放”挑战者 o1。
那么,是什么推动了推理模型的发展呢?首先,是对生成式 AI 改进的追求。正如 TechCrunch 最近报道的那样,单纯通过“蛮力”扩大模型规模已经不再像以前那样有效。
不过,并非所有人都认为推理模型是未来的最佳路径。首先,它们往往非常昂贵,因为运行它们需要大量的计算能力。而且,尽管它们在基准测试中表现出色,但尚不清楚这种进展能否持续下去。
有趣的是,o3 的发布恰逢 OpenAI 的一位杰出科学家 Alec Radford 宣布离职。Radford 是 GPT 系列模型的主要作者之一,他的离开无疑为 OpenAI 的未来增添了一些不确定性。