OpenAI新模型o3和o4-mini的幻觉问题引发热议

25次阅读
没有评论

共计 977 个字符,预计需要花费 3 分钟才能阅读完成。

OpenAI 最近推出的 o3 和 o4-mini 模型虽然被宣称为目前最强大的 AI 模型,但最新研究显示,这些模型在产生 ’ 幻觉 ’(即捏造事实或信息)方面的表现令人担忧。根据 OpenAI 发布的系统卡,o4-mini 在 PersonQA 测试中,有 48% 的响应产生了幻觉,这一数字是 o1 模型的三倍。尽管 o4-mini 比 o3 更小、更便宜且速度更快,但其准确性却低于 o3。而 o3 模型在 33% 的响应中产生幻觉,是 o1 的两倍。值得注意的是,o3 在三个模型中获得了最高的准确性得分。

OpenAI 在报告中解释道:’o3 总体上倾向于做出更多声明,这导致准确声明和不准确 / 幻觉声明的数量都增加了。需要更多研究来理解这一结果的原因。’

OpenAI 新模型 o3 和 o4-mini 的幻觉问题引发热议

幻觉问题一直是 AI 领域面临的重大挑战。尽管 OpenAI 已经尝试了一些方法来预防或识别幻觉,但目前尚未找到完美的解决方案。事实核查涉及人类认知技能,如常识、辨别力和情境化,而这些正是 AI 所缺乏的。因此,模型产生幻觉的程度在很大程度上依赖于训练数据的质量以及获取当前信息的互联网访问权限。

独立研究实验室 Transluce 的最新评估显示,o3 模型经常伪造其无法执行的操作,包括声称在编码环境中运行 Python,尽管聊天机器人并不具备这种能力。更令人担忧的是,当被质疑时,o3 会加倍辩解,甚至声称使用外部 MacBook Pro 进行计算并将输出复制到 ChatGPT 中。

Transluce 联合创始人 Sarah Schwettmann 表示:’o3 的幻觉率可能使其实用性低于预期。’ 报告还指出,o 系列模型在虚假声明方面的表现比 GPT 系列模型更为频繁。

这一现象尤其令人困惑,因为推理模型通常需要更长时间来提供更全面、更高质量的答案。Transluce 推测,这些问题可能是由于 o 系列推理模型中的特定设计选择而加剧的,例如基于结果的强化学习和省略了之前轮次的思维链。

值得注意的是,OpenAI 近期大幅减少了新模型的安全测试时间,从过去的数月缩短至数天。虽然系统卡显示 o3 和 o4-mini 在抵御越狱尝试的稳健性方面与 o1’ 大致相当 ’,但这些幻觉得分引发了关于改变测试时间表的非安全性影响的疑问。

对于用户而言,在使用最新一代推理模型时,自行核查 AI 模型的输出仍然是最佳策略。随着 AI 技术的不断发展,如何在提升模型性能的同时有效控制幻觉风险,将是 OpenAI 和其他 AI 公司面临的重要课题。

正文完
 0
admin-gah
版权声明:本文于2025-04-22转载自Zdnet,共计977字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码