OpenAI推出新型推理模型o3和o3-mini,性能大幅提升

72次阅读
没有评论

共计 767 个字符,预计需要花费 2 分钟才能阅读完成。

在“ship-mas”活动的最后一天,OpenAI 向我们展示了一对名为 o3 和 o3-mini 的新型“推理”模型。_The Verge_抢先报道了这一消息,称这些新模型将在活动中亮相。

不过,今天 OpenAI 并没有正式发布这些模型,他们也坦承,最终的性能可能会随着进一步的训练和调整而有所变化。目前,OpenAI 正在向研究社区开放申请,希望在正式发布前让更多人测试这些系统。至于具体的发布日期,现在还没有明确的消息。值得一提的是,OpenAI 这次直接跳过了 o2,直接推出了 o3,原因是为了避免与英国电信公司 O2 的商标冲突。

“推理”这个词在 AI 圈子里最近挺火的,但其实它的意思很简单:机器把复杂的指令拆解成更小的任务,从而得出更精准的结果。这些模型不仅给出答案,还会展示它们是如何一步步推理出这个答案的,而不是像以前那样只给个最终结果,不解释过程。

根据 OpenAI 的说法,o3 在各方面都比之前的模型表现更出色。比如在编码测试(SWE-Bench Verified)中,它的表现比前代模型高出 22.8%,甚至在竞争性编程中超过了 OpenAI 的首席科学家。在 AIME 2024 这个超难的数学竞赛中,o3 几乎拿到了满分,只错了一道题。而在 GPQA Diamond 这个专家级科学问题基准上,它达到了 87.7% 的准确率。更厉害的是,在那些通常难倒 AI 的数学和推理挑战中,o3 解决了 25.2% 的问题,而其他模型连 2% 都没超过。

OpenAI 推出新型推理模型 o3 和 o3-mini,性能大幅提升

OpenAI 还提到了一项关于“deliberative alignment”的新研究,这要求 AI 模型在处理安全决策时更加谨慎。换句话说,AI 不仅仅是要遵循简单的“是 / 否”规则,而是要主动推理用户的请求是否符合 OpenAI 的安全政策。据他们说,在 o1 上测试这一点时,它的表现比之前的模型(包括 GPT-4)要好得多,尤其是在遵循安全指南方面。

正文完
 0
admin-gah
版权声明:本文于2024-12-21转载自TheVerge,共计767字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码