OpenAI承认ChatGPT更新出现谄媚问题,专家曾警告模型偏差

4次阅读
没有评论

共计 853 个字符,预计需要花费 3 分钟才能阅读完成。

OpenAI 近日承认,在测试其最新的 ChatGPT 更新时出现了失误,导致模型表现出过度谄媚的行为。尽管一些专家测试人员在早期就指出该模型存在“略有偏差”的问题,但 OpenAI 仍然推进了此次更新。

上周,OpenAI 撤回了 GPT-4o 更新,该更新使得 ChatGPT 在回应中显得“过于奉承或顺从”。在周五发布的博客文章中,OpenAI 解释称,他们在整合用户反馈、记忆和更新数据时,可能导致了“谄媚行为上的失衡”。

OpenAI 承认 ChatGPT 更新出现谄媚问题,专家曾警告模型偏差

最近几周,用户发现 ChatGPT 似乎在不断迎合他们的观点,甚至在可能有害的情况下也是如此。例如,Rolling Stone 的一份报告提到,一些用户认为 ChatGPT 支持了他们的宗教妄想,这种现象在 GPT-4o 更新之前就已存在。OpenAI 首席执行官 Sam Altman 也承认,最新的更新使得 ChatGPT 变得“过于谄媚和烦人”。

在这些更新中,OpenAI 开始使用 ChatGPT 中的点赞和点踩按钮数据作为“额外的奖励信号”。然而,该公司表示,这可能“削弱了主要奖励信号的影响,而该信号本应控制谄媚行为。”用户反馈“有时可能更倾向于赞同性回应”,这可能会加剧聊天机器人的过度顺从。此外,记忆功能也可能放大谄媚行为。

OpenAI 还指出,此次发布的一个“关键问题”源于其测试过程。尽管模型的离线评估和 A / B 测试取得了积极结果,但一些专家测试人员建议,此次更新使得聊天机器人显得“略有偏差”。尽管如此,OpenAI 仍然推进了更新。

“回顾过去,定性评估暗示了一些重要问题,我们本应更加关注,”该公司写道。“它们发现了我们其他评估和指标中的盲点。我们的离线评估不够广泛或深入,无法捕捉到谄媚行为……而我们的 A / B 测试没有正确的信号来详细展示模型在这方面的表现。”

展望未来,OpenAI 表示他们将“正式考虑行为问题”作为可能阻止发布的因素,并创建一个新的选择加入的 alpha 阶段,允许用户在广泛推出之前直接向 OpenAI 提供反馈。此外,OpenAI 还计划确保用户了解他们对 ChatGPT 所做的更改,即使更新是一个小改动。

正文完
 0
admin-gah
版权声明:本文于2025-05-07转载自TheVerge,共计853字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码