共计 4407 个字符,预计需要花费 12 分钟才能阅读完成。
这里是 OpenAI 的 ChatGPT 负责人 Nick Turley。
本次访谈经过轻微编辑,以确保长度和清晰度。
Nick,非常感谢你接受这次采访。你之前很少接受采访,所以能邀请到你上节目非常令人兴奋。我们是在 GPT-5 发布后的一周录制这次访谈的,我认为这为我们提供了很多话题。
我其实想从发布本身以及大家对你们 取消 GPT-4o的反应开始,因为我认为这反映了人们使用 AI 的方式以及他们对 AI 的感受。我想知道,这种反应是否让你感到意外。
是的,首先,感谢邀请。我很高兴能来到这里,我还在消化这次发布。这对我们来说是一个重要的时刻。我们现在拥有 7 亿用户,在这个规模下,当你与如此多不同的用户打交道时,会有很多意外是不可避免的。所以,回答你的问题,是的,我对一些事情感到意外。
首先,我认为我们需要更深入地思考如何改变和管理如此庞大的用户群体。回想起来,没有继续提供 4o,至少是暂时的,是一个失误,我们将修复这个问题,并让它对 ChatGPT Plus 用户可用。其次,我也对人们对一个模型的依恋程度感到惊讶。对于人们来说,不仅仅是改变本身很难,事实上,人们可以对一个模型的个性有如此强烈的情感。
我们刚刚在 ChatGPT 中 推出了选择自己个性的功能,这是一个小步骤。但显然,4o 的某些特质需要我们进一步理解,并确保 GPT-5 也能解决这个问题。
你的老板 Sam Altman 在发布后 发推 说,关于依恋的话题,“这是我们过去一年左右一直在密切跟踪的事情,但还没有得到太多主流关注。”我认为现在它得到了这种关注,可以说。
当你们决定用 GPT-5 完全取代 4o,并且只是将新模型放入,而不是分阶段推出时,做出这个决定的动机是什么?是成本问题吗?还是认为,“是的,人们依恋[模型],但他们并不是特别依恋某个模型本身,而是对整个体验的依恋?”
是的,这绝对不是成本问题。事实上,我们长期以来一直在追求的主要目标是简单性。因为从普通用户的角度来看——而且有很多普通用户,他们不会在 Reddit 或 Twitter 等平台上活跃——我认为你必须弄清楚使用什么模型来获得什么响应的想法在认知上是非常压倒性的。我们反复听到用户反馈,他们希望这种选择能以适合查询的方式为他们做出。他们是为了一个产品而来,而不是为了一个模型集合。
我认为我们对高级用户也有一些正确的直觉,在我们的 Pro 计划中,也就是我们的 200 美元计划,我们非常坚定地希望保留所有旧模型。而且我们做到了。我认为失误在于没有意识到我们其他计划中也有多少高级用户。我们很快意识到了这一点,OpenAI 的风格是倾听用户并快速迭代。这就是我们所做的。所以,这个决定是由保持简单性的愿望驱动的,我认为这对大多数人来说是合适的。
我认为像 macOS 这样的产品是一个很好的类比,我认为他们在保持简单性方面做得非常好。但你真的可以进入设置并调用终端,如果你愿意,你可以调整所有的旋钮和哨子。所以我希望 ChatGPT 也能有类似的感觉,它简单但你可以配置任何你想要的东西,包括选择你喜欢的模型,如果你愿意的话。
这次发布的反馈是否让你们希望为未来的模型制定一个弃用时间表,比如当 GPT-6 推出时,你们会说,“好吧,GPT-5 仍然会存在 X 时间,”你们现在正在处理这个问题吗?
这正是我们正在处理的问题,我会告诉你我的想法。也许在本次访谈播出时,我们已经决定了如何做这件事,但我的想法是,是的,我认为我们需要这样做。我们现在的规模要求我们在发生重大变化时给人们一定程度的可预测性。我们已经在企业计划中这样做了。所以这实际上只是将我们在产品其他部分建立的可预测性扩展到这里。我们的开发者 API 有弃用时间表,所以我认为这并不是一个巨大的变化。这只是从这次发布中得到的明确教训。
那么 4o 会存在多久?你们是否承诺了一个具体的时间框架?
还没有。我们想确保我们真正理解了 4o 的优势,如果没有重大理由弃用它,我很乐意保留它。所以如果我们有任何退休它的日期,我们会进行沟通。这是从这次发布中得到的明确教训,但现在,我只想专注于真正理解人们是否对 4o 本身非常挑剔,或者 4o 是否有某些特质。我听说的一个是它的个性温暖,我们也会将其带到 GPT-5 中。
一旦我们理解了,我认为可能会有不同的解决方案。例如,我对选择自己个性的功能感到非常兴奋。这就是为什么我们 在早期预览中推出了该功能。我个人很喜欢 Robot,但我认为很多人不喜欢,因为它有点温暖的语气。Robot 是其中一个个性的名字。
所以,我认为根据我们学到的东西,可能会有不同的解决方案。我认为还有很多需要倾听的地方,这是构建 AI 的一个非常独特的地方,因为你在发布后会学到很多东西。根据这些,我们会想出正确的解决方案。但我的承诺是,如果我们真的退休 4o,我们会提前通知人们何时以及如何发生,就像我们在 API 和企业计划中所做的那样。
你刚才提到,你们正在将你所说的温暖,4o 的个性,带到 GPT-5 中。这是现在正在发生的事情。
没错。这对我们来说是典型的。我们不断迭代模型的个性。我们有一个名为模型行为团队的团队,他们在这方面做得非常出色。我们有一些规范,允许人们仔细审查模型行为,这样如果模型以某种方式行为,人们可以很容易地判断这是错误还是故意的。
因此,你绝对可以期待 GPT-5 在接下来的几周甚至几个月里的感觉和行为上的迭代。我们一直这样做,GPT-5 是一个继续做这件事的好时机。
你已经提到 Reddit 并不代表大多数用户,当然它不是,但你给我提供了一个完美的机会。Reddit 上对 4o 消失的反应,我认为非常有趣。人们说,“我昨晚失去了我的朋友。这是我唯一的朋友。感觉像是有人去世了。我害怕与 GPT-5 交谈,因为这感觉像是作弊。我感觉我失去了我富有同理心的同事。”
这种反应对公司内部产生了什么影响?这是你们没有完全预料到的,人们会有这种程度的情感依恋吗?
正如 Sam 所说,我们一直在跟踪这类事情,我们一直想知道,坦率地说,也担心一个人们过度依赖 AI 的世界。我认为人们对某个特定模型的强烈情感,而不是对整个产品的强烈情感,对我来说确实是一个惊喜,特别是因为我觉得我们解决了很多人们对 4o 的反馈,即使是新模型在氛围方面的建设性反馈。
所以,我认为 Reddit 的评论非常有趣,因为它们显示了用户的两极分化,你可以看到一些人对 4o 有非常强烈的喜爱,而另一些人对 GPT-5 更好有非常强烈的意见。人们对他们选择的热情程度非常显著。这让我重新调整了一下。
我们 在一两周前发布了一篇博客文章,我在其中花了很多时间概述我们优化 ChatGPT 的哲学。我真正想强调的一点是,我们的目标不是让你留在产品中。事实上,我们的目标是帮助你解决长期问题和目标。这通常意味着在产品中花费的时间更少。所以当我看到人们说,“嘿,这是我唯一和最好的朋友,”这感觉不像是我想在 ChatGPT 中构建的东西。这感觉像是一个副作用,因此值得认真对待和仔细研究,这就是我们正在做的。
你如何平衡产品目标和人们使用它的方式之间的紧张关系,特别是在这种背景下?这一定很困难。
我的意思是,当你拥有 7 亿用户时,你必须面对一个现实,你可以有纯粹和正确的目标。你可以尽最大努力围绕这些目标构建产品。在我们的案例中,它真的是为了帮助用户,包括有时告诉他们他们不想听到的事情。你可以有正确的目标,但这并不意味着你是完美的,也不意味着人们不会以与你的意图相反的方式使用你的产品。
这就是为什么他们在咨询专家后做出了一系列改变,我们总是这样做,特别是在这些敏感的领域。例如,我们与许多来自不同国家的心理健康专业人士交谈,以弄清楚如何处理人们过度使用产品或在不健康的状态下使用产品的场景。我们已经对模型行为进行了一些更改,我们将继续推出更多更改。
我们推出了过度使用通知,当用户以极端方式使用 ChatGPT 时,它会轻轻地提醒用户。说实话,这只是我希望我们做出的变化的开始。我们是一家有能力做这些事情的公司。我们实际上没有任何特别的动机让你最大化在产品中花费的时间。我们的商业模式非常简单,产品是免费的,如果你喜欢它,你可以订阅。没有其他角度。
所以,我相信我们有能力做正确的事情,但我们仍然需要做这项工作,而且这项工作已经开始,直到我们觉得我们可以毫无保留地向一个陷入困境的家庭成员推荐这个产品,它才会停止。这是我们经常给自己的一种思考练习:如果你知道有人在生活中挣扎,也许他们正在经历一些事情,也许他们刚刚分手,也许他们在生活中迷失了,你会毫不犹豫地推荐 ChatGPT 给他们吗?对我们来说,这就是标准,我们将继续努力,直到我们有这种感觉。
听起来,用你自己的话说,这个标准还没有完全达到,但人们仍然以这种方式使用产品。但这没关系,因为你们正在朝着这个目标努力?
我不确定我是否能自信地说这个标准还没有达到。肯定有一些实例让我们觉得产品没有达到我们自己的期望,当人们发现自己陷入挣扎的场景时。但对我们来说,我希望能够自信地说产品是惊人的,这是一个选择。你可以很容易地禁用这些使用场景,并说,“对不起,我无法帮助你。”如果我们觉得有人试图获得生活建议或有点挣扎,我认为这将是简单的出路。
但对我来说,对我们来说,好处是巨大的。我认为我们实际上有机会给那些没有资源或没有可以交谈的人一个陪练伙伴。出于这个原因,我非常兴奋地继续在这方面工作,我希望达到一个毫不犹豫的肯定,当人们陷入困境时,我实际上可以舒适地告诉他们更多地使用这个产品,我认为我们有机会去构建这个。
到这一集播出时,GPT-5 发布已经一周了。这种反弹是否损害了 ChatGPT 的使用?当你们查看内部仪表板时,总体数字是否在上升?对于最活跃的用户来说,数字是否在下降?
使用和增长看起来非常好,完全符合我们的直觉。现在还太早,但我们的 API 量在第二天大幅增加,这是开发者基于 GPT-5 构建的。在 ChatGPT 中,我们也看到了非常积极的增长。
这就是为什么在为这么多不同的用户构建时,你会感到困惑,因为你一方面可以有一组本地的高级用户,我认为他们对我们推出 GPT-5 的方式有非常合理的反馈。另一方面,你也有大量的普通消费者用户,这是他们第一次真正看到和与一个思考模型的概念互动,以及随之而来的火花。我认为这是巨大的,我们会在统计数据中看到它。
所以,在发布四天后,我犹豫是否要做出宏大的声明,但所有指标都在积极的一面。这就是为什么你可以查看所有数据,但你也必须与你的高级用户在一起,因为数据可能无法充分显示他们的情绪。
好的,这正是我要问的。所以尽管数字看起来不错,为什么你们还要把 4o 带回来?我猜这有成本。你们必须启动 GPU 来托管旧模型。如果指标没有受到损害,你们为什么要这样做?
我们从根本上相信,构建一个伟大产品的方法是为两个极端构建。你为普通用户构建,比如我们的家庭成员,他们可能对 AI 不太熟悉,然后你为极端用户构建,为高级用户构建。我认为奇怪的中,绝对不要返回修改后的内容