OpenAI发布新模型o1：超越人类推理能力的AI

203次阅读

共计 2114 个字符，预计需要花费 6 分钟才能阅读完成。

OpenAI 近日推出了一款名为 o1 的新模型，这是其“推理”模型系列的首个产品。o1 经过专门训练，能够比人类更快地解答更为复杂的问题。同时发布的还有 o1-mini，这是一个更小、更经济的版本。如果你对 AI 领域有所关注，可能会发现，o1 实际上就是备受期待的 Strawberry 模型。

对于 OpenAI 而言，o1 的发布标志着其向类人智能目标迈进的重要一步。在编写代码和解决多步骤问题方面，o1 的表现优于之前的模型。然而，与 GPT-4o 相比，o1 的成本更高，使用速度也更慢。OpenAI 将 o1 的发布称为“预览”，以表明其仍处于早期阶段。

从今天开始，ChatGPT Plus 和 Team 用户可以访问 o1-preview 和 o1-mini，而 Enterprise 和 Edu 用户将在下周初获得访问权限。OpenAI 计划将 o1-mini 的访问权限扩展到所有 ChatGPT 免费用户，但具体的发布日期尚未确定。开发者访问 o1 的成本相当高：在 API 中，o1-preview 的输入令牌价格为每百万个 15 美元，输出令牌价格为每百万个 60 美元。相比之下，GPT-4o 的输入令牌价格为每百万个 5 美元，输出令牌价格为每百万个 15 美元。

OpenAI 的研究主管 Jerry Tworek 透露，o1 的训练与之前的模型有根本不同，尽管公司对具体细节保持沉默。他表示，o1“使用了一种全新的优化算法和专门为其定制的新训练数据集进行训练。”

OpenAI 发布新模型 o1：超越人类推理能力的 AI

OpenAI 之前的 GPT 模型主要模仿其训练数据中的模式。而对于 o1，OpenAI 采用了强化学习技术，通过奖励和惩罚来教导系统自行解决问题。随后，o1 使用“思维链”来处理查询，类似于人类通过逐步解决问题的方式。

由于这种新的训练方法，OpenAI 表示该模型应该更加准确。“我们注意到这个模型产生的幻觉更少，”Tworek 说。但问题仍然存在。“我们不能说我们解决了幻觉问题。”

根据 OpenAI 的说法，这个新模型与 GPT-4o 的主要区别在于它能够更好地处理复杂问题，如编码和数学，同时还能解释其推理过程。

“这个模型在解决 AP 数学测试方面肯定比我强，而我大学时是数学辅修，”OpenAI 的首席研究官 Bob McGrew 表示。他还提到，OpenAI 测试了 o1 在国际数学奥林匹克竞赛的资格考试中的表现，而 GPT-4o 仅正确解决了 13% 的问题，o1 的正确率达到了 83%。

在被称为 Codeforces 竞赛的在线编程比赛中，这个新模型达到了参与者中的第 89 百分位，OpenAI 声称该模型的下一次更新将在物理、化学和生物学等领域的挑战性基准任务中表现“类似于博士生”。

与此同时，o1 在许多方面不如 GPT-4o。它在世界事实知识方面表现不佳。它也没有浏览网页或处理文件和图像的能力。尽管如此，该公司认为它代表了一种全新的能力类别。它被命名为 o1，以表示“将计数器重置为 1”。

“老实说：我认为我们在命名方面一直很糟糕，”McGrew 说。“所以我希望这是迈向更新、更合理的名称的第一步，这些名称能更好地向世界传达我们在做什么。”

我无法亲自演示 o1，但 McGrew 和 Tworek 本周通过视频通话向我展示了它。他们要求它解决这个谜题：

“一位公主的年龄与王子在公主年龄是两人当前年龄之和的一半时的年龄相同。王子和公主的年龄是多少？请提供所有解决方案。”

该模型缓冲了 30 秒，然后给出了正确答案。OpenAI 设计了界面，以显示模型在思考时的推理步骤。令我印象深刻的是，它似乎有意模仿人类的思维方式。诸如“我很好奇”、“我在思考”和“好的，让我看看”等短语创造了一种逐步思考的幻觉。

OpenAI 发布新模型 o1：超越人类推理能力的 AI

根据 Tworek 的说法，OpenAI 并不认为 AI 模型的思考等同于人类的思考。但界面旨在展示模型在处理和深入解决问题上花费更多时间的方式。“在某些方面，它感觉比之前的模型更人性化。”

“我认为你会看到，它在很多方面感觉很陌生，但在某些方面又感觉非常人性化，”McGrew 说。该模型被赋予有限的时间来处理查询，因此它可能会说类似“哦，我时间不多了，让我快速得到一个答案”的话。在早期，在其思维链中，它可能看起来像是在头脑风暴，并说类似“我可以这样做或那样做，我应该怎么做？”的话。

大型语言模型在今天的存在并不那么智能。它们本质上只是根据从大量数据中学习的模式预测单词序列来给你一个答案。以 ChatGPT 为例，它倾向于错误地声称“草莓”这个词只有两个 R，因为它没有正确分解这个词。值得庆幸的是，新的 o1 模型正确回答了这个问题。

据报道，OpenAI 正在寻求以惊人的 1500 亿美元估值筹集更多资金，其势头取决于更多的研究突破。该公司正在将推理能力引入 LLM，因为它看到了一个未来，即自主系统或代理能够代表你做出决策和采取行动。

对于 AI 研究人员来说，破解推理是迈向人类水平智能的重要下一步。思考是，如果一个模型能够超越模式识别，它可能会在医学和工程等领域解锁突破。尽管如此，o1 的推理能力相对较慢，不具备代理性质，并且对开发者来说使用成本高昂。

“我们已经花费了数月时间研究推理，因为我们认为这实际上是关键的突破，”McGrew 说。“从根本上说，这是一种新的模型模式，以便能够解决真正困难的问题，从而向类人智能水平迈进。”

正文完

发表至： AI应用大全

2024-09-13 02:38

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

Claude 学习模式上线：AI 助手的全新进化

RI Mining云挖矿重大更新：每天赚取1000点，支持多币种结算

深度体验谷歌Pixel 10系列AI功能：语音照片编辑等创新技术解析

Perplexity AI助手新功能体验：从问答工具到全能助手

Google Gemini语音聊天模式免费开放给Android用户

OpenAI发布新模型o1：超越人类推理能力的AI

尚达曼警告：新加坡将更早面对人工智能挑战，呼吁全球协同治理

内部人士看好：2026年布局必看这两只人工智能股票

AI数字来世：与逝者对话的聊天机器人，真的能永恒记忆吗？

在M1 Mac上运行本地AI模型，为何我的期待落空了？

谷歌Project Genie引发行业震动，Unity股价暴跌24%

2026年企业人工智能平衡之道：如何在安全与创新之间找到最佳路径

人工智能鸿沟加剧全球不平等：发展中国家面临被边缘化风险

谷歌Pixel相机隐藏功能：一键开启Display P3让照片色彩更鲜艳

爱尔兰拟推’面对面访谈’新规：学生需口头自证作业非AI生成

加州新法严控AI风险，一州之力能否抵御潜在灾难？