共计 1275 个字符,预计需要花费 4 分钟才能阅读完成。
生成式 AI 模型在生成信息时,偶尔会产生不准确的内容,这种现象被称为 AI 幻觉。OpenAI 的最新研究揭示了这一问题的根源,并提出了行业范围内的解决方案。
Hector Roqueta Rivero/Moment via Getty Images
关键发现
- OpenAI 指出,AI 幻觉源于有缺陷的评估方法。
- 模型被训练为猜测而非承认无知。
- 建议修改模型的训练方式。
即使是最大、最先进的生成式 AI 模型,偶尔也会出现幻觉,即生成不准确的信息并将其作为事实呈现。如今,OpenAI 声称已经理解了原因,并提供了可能的解决方案。
在最近发表的一篇研究论文中,OpenAI 的研究团队认为,幻觉并非源于模型训练数据的质量,而是来自有缺陷的评估激励机制。这些机制在整个行业中广泛使用,奖励猜测而非承认不确定性。
“语言模型被优化为优秀的应试者,而在不确定时猜测可以提高测试表现,”作者在论文中写道。
模型被训练为从大量训练数据中识别出微妙的数学模式,然后将其作为生成用户查询响应的框架。当前的评估范式本质上使用了一种简单的二元评分标准,准确响应会得到奖励,而不准确响应则会受到惩罚。根据这种方法,承认无知会被判定为不准确的响应,这促使模型生成 OpenAI 所说的“过度自信、看似合理的谎言”——即幻觉。
例如,如果被要求说出你的生日,模型可能会胡乱猜测,而不是简单地说“我不知道”。它有 1/365 的几率猜对;虽然不是特别高的概率,但比直接承认无知要好——根据当前的评估标准,承认无知将确保模型得分为零。模型根据其在数百万次输出中的平均表现进行评估,这对其猜测行为施加了微妙的统计压力。如果有足够多的用户多次要求模型猜测他们的生日,那么模型在极少数情况下可能会生成正确答案。与其承认无知而永远无法得分,不如掷骰子争取那些分数。
“在不确定时进行战略性猜测可以提高准确性,但会增加错误和幻觉,”OpenAI 在与其研究结果相关的博客文章中写道。
由于这种“仅追求准确性”的方法目前在整个行业中普遍存在,并决定了哪些模型在排行榜上占据主导地位,开发者们被激励继续构建优先猜测而非承认不确定性的模型,从而导致更多的幻觉。
如何解决幻觉问题
根据 OpenAI 的说法,解决方案不是为模型提供更准确的信息,而是调整其表现评估的结构。
由于将模型输出简单地判定为对或错的二元评分系统被认为助长了幻觉,OpenAI 的研究人员表示,AI 行业必须开始奖励模型在表达不确定性时的表现。
毕竟,现实世界中的真理并非非黑即白,那么为什么 AI 要被训练得好像真理是绝对的呢?通过数百万个关于主语、动词和谓语正确排列的示例来训练模型,将使其在使用自然语言时更加流利,但正如任何活生生的人所知,现实是开放解释的。为了在世界上功能性地生活,我们经常不得不说“我不知道”。
同样,OpenAI 的研究人员认为,只要模型在应该承认无知时因猜测而受到奖励,它们就会继续产生幻觉。“对主流评估的简单修改可以重新调整激励机制,奖励适当表达不确定性而非惩罚它们,”他们在新论文中写道。“这可以消除抑制幻觉的障碍,并为未来开发具有更丰富语用能力的细致语言模型打开大门。”