OpenAI推出新型推理模型o3和o3-mini，性能大幅提升

214次阅读

共计 767 个字符，预计需要花费 2 分钟才能阅读完成。

在“ship-mas”活动的最后一天，OpenAI 向我们展示了一对名为 o3 和 o3-mini 的新型“推理”模型。_The Verge_抢先报道了这一消息，称这些新模型将在活动中亮相。

不过，今天 OpenAI 并没有正式发布这些模型，他们也坦承，最终的性能可能会随着进一步的训练和调整而有所变化。目前，OpenAI 正在向研究社区开放申请，希望在正式发布前让更多人测试这些系统。至于具体的发布日期，现在还没有明确的消息。值得一提的是，OpenAI 这次直接跳过了 o2，直接推出了 o3，原因是为了避免与英国电信公司 O2 的商标冲突。

“推理”这个词在 AI 圈子里最近挺火的，但其实它的意思很简单：机器把复杂的指令拆解成更小的任务，从而得出更精准的结果。这些模型不仅给出答案，还会展示它们是如何一步步推理出这个答案的，而不是像以前那样只给个最终结果，不解释过程。

根据 OpenAI 的说法，o3 在各方面都比之前的模型表现更出色。比如在编码测试（SWE-Bench Verified）中，它的表现比前代模型高出 22.8%，甚至在竞争性编程中超过了 OpenAI 的首席科学家。在 AIME 2024 这个超难的数学竞赛中，o3 几乎拿到了满分，只错了一道题。而在 GPQA Diamond 这个专家级科学问题基准上，它达到了 87.7% 的准确率。更厉害的是，在那些通常难倒 AI 的数学和推理挑战中，o3 解决了 25.2% 的问题，而其他模型连 2% 都没超过。

OpenAI 推出新型推理模型 o3 和 o3-mini，性能大幅提升

OpenAI 还提到了一项关于“deliberative alignment”的新研究，这要求 AI 模型在处理安全决策时更加谨慎。换句话说，AI 不仅仅是要遵循简单的“是 / 否”规则，而是要主动推理用户的请求是否符合 OpenAI 的安全政策。据他们说，在 o1 上测试这一点时，它的表现比之前的模型（包括 GPT-4）要好得多，尤其是在遵循安全指南方面。

正文完