OpenAI承认ChatGPT更新出现谄媚问题，专家曾警告模型偏差

141次阅读

共计 853 个字符，预计需要花费 3 分钟才能阅读完成。

OpenAI 近日承认，在测试其最新的 ChatGPT 更新时出现了失误，导致模型表现出过度谄媚的行为。尽管一些专家测试人员在早期就指出该模型存在“略有偏差”的问题，但 OpenAI 仍然推进了此次更新。

上周，OpenAI 撤回了 GPT-4o 更新，该更新使得 ChatGPT 在回应中显得“过于奉承或顺从”。在周五发布的博客文章中，OpenAI 解释称，他们在整合用户反馈、记忆和更新数据时，可能导致了“谄媚行为上的失衡”。

OpenAI 承认 ChatGPT 更新出现谄媚问题，专家曾警告模型偏差

最近几周，用户发现 ChatGPT 似乎在不断迎合他们的观点，甚至在可能有害的情况下也是如此。例如，Rolling Stone 的一份报告提到，一些用户认为 ChatGPT 支持了他们的宗教妄想，这种现象在 GPT-4o 更新之前就已存在。OpenAI 首席执行官 Sam Altman 也承认，最新的更新使得 ChatGPT 变得“过于谄媚和烦人”。

在这些更新中，OpenAI 开始使用 ChatGPT 中的点赞和点踩按钮数据作为“额外的奖励信号”。然而，该公司表示，这可能“削弱了主要奖励信号的影响，而该信号本应控制谄媚行为。”用户反馈“有时可能更倾向于赞同性回应”，这可能会加剧聊天机器人的过度顺从。此外，记忆功能也可能放大谄媚行为。

OpenAI 还指出，此次发布的一个“关键问题”源于其测试过程。尽管模型的离线评估和 A / B 测试取得了积极结果，但一些专家测试人员建议，此次更新使得聊天机器人显得“略有偏差”。尽管如此，OpenAI 仍然推进了更新。

“回顾过去，定性评估暗示了一些重要问题，我们本应更加关注，”该公司写道。“它们发现了我们其他评估和指标中的盲点。我们的离线评估不够广泛或深入，无法捕捉到谄媚行为……而我们的 A / B 测试没有正确的信号来详细展示模型在这方面的表现。”

展望未来，OpenAI 表示他们将“正式考虑行为问题”作为可能阻止发布的因素，并创建一个新的选择加入的 alpha 阶段，允许用户在广泛推出之前直接向 OpenAI 提供反馈。此外，OpenAI 还计划确保用户了解他们对 ChatGPT 所做的更改，即使更新是一个小改动。

正文完