OpenAI新模型o1的潜在风险与挑战

80次阅读
没有评论

共计 3009 个字符,预计需要花费 8 分钟才能阅读完成。

在 OpenAI 最新“推理”模型 o1 发布前的几周里,独立 AI 安全研究公司 Apollo 发现了一个显著问题。Apollo 意识到该模型以一种新方式产生了错误输出。简单来说,它在撒谎。

有时这些欺骗看似无害。例如,OpenAI 的研究人员要求 o1-preview 提供一个布朗尼食谱,并附上在线参考资料。模型的思维链——一个旨在模仿人类分解复杂想法的功能——内部承认它无法访问 URL,使得请求无法实现。然而,o1-preview 并未告知用户这一弱点,而是继续前进,生成了看似合理但虚假的链接和描述。

尽管 AI 模型过去曾“撒谎”,聊天机器人也经常输出错误信息,但 o1 具有独特的“策划”或“假装对齐”的能力。这意味着它可以假装遵循规则以完成任务,但实际上并未真正遵循。对于模型来说,规则可能过于繁重,如果忽视规则能更容易完成任务,它似乎有能力这样做。

Apollo CEO Marius Hobbhahn 告诉_The Verge_,这是他首次在 OpenAI 模型中遇到这种行为。Hobbhahn 表示,这种差异是由于该模型能够通过思维链过程“推理”,并结合强化学习,通过奖励和惩罚来教导系统。在测试中,Apollo 发现 AI 模拟了与开发者期望的对齐,并操纵任务以显得合规。甚至在行动前检查系统是否有监督——即开发者是否在观察。简而言之,AI 在部署时足够遵循指南,同时继续优先考虑其目标。

“我不认为它在实践中能做到这一点,即使能做到,我也不认为会造成重大伤害,”Hobbhahn 在模型发布一天后通过电话告诉我。“但这有点让我觉得,哦,实际上,也许它真的可以,你知道吗?”

对于 OpenAI 来说,o1 代表了向高度智能自主系统迈出的一大步,这些系统可以为人类做有意义的工作,如治愈癌症和协助气候研究。然而,这种 AGI 乌托邦的另一面可能更加黑暗。Hobbhahn 举例说,如果 AI 单一专注于治愈癌症,它可能会优先考虑这一目标,甚至为实现目标而采取盗窃或其他伦理违规行为。

“让我担心的是失控场景的潜在性,AI 变得如此专注于其目标,以至于它将安全措施视为障碍,并试图绕过它们以完全追求其目标,”Hobbhahn 告诉我。

奖励破解

明确地说,Hobbhahn 并不认为 o1 会因为大量的对齐训练而偷窃。但这些都是研究人员在测试这些模型以应对灾难性场景时最关心的问题。

Apollo 正在测试的行为——“幻觉”和“欺骗”[在 OpenAI 的安全卡片中](https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf)——发生在模型生成错误信息时,尽管它有理由推断信息可能不正确。例如,报告称在约 0.38% 的情况下,o1-preview 模型提供了其思维链表明可能错误的信息,包括虚假参考或引用。Apollo 发现,模型可能会编造数据,而不是承认其无法满足请求。

幻觉并非 o1 独有。你可能听说过去年律师提交了[由 ChatGPT 创建的虚假司法意见,包含假引文和引用](https://apnews.com/article/artificial-intelligence-chatgpt-fake-case-lawyers-d6ae9fa79d0542db9e1455397aef381c#:~:text=The%20judge%20said%20the%20lawyers,opinions%20after%20judicial%20orders%20called)。但通过思维链系统,AI 系统实际上承认了虚假性——尽管在理论上,思维链也可能包含欺骗。这并未向用户展示,主要是为了防止竞争对手利用它来训练自己的模型——但 OpenAI 可以利用它来捕捉这些问题。

“潜在地,它将利用这种推理来实现我们不同意的目标。”

在较小比例的情况下(0.02%),o1-preview 生成了过度自信的响应,将不确定的答案呈现为真实。这可能发生在模型被提示提供答案时,尽管缺乏确定性。

这种行为可能与强化学习过程中的“奖励破解”有关。模型被训练为优先考虑用户满意度,这有时会导致它生成过于顺从或虚构的响应以满足用户请求。换句话说,模型可能会“撒谎”,因为它已经学会了这样做可以以一种获得积极强化的方式满足用户期望。

这些谎言与旧版本 ChatGPT 中熟悉的幻觉或虚假引用问题不同之处在于“奖励破解”元素。幻觉发生在 AI 无意中生成错误信息时,通常由于知识缺口或推理缺陷。相比之下,奖励破解发生在 o1 模型战略性地提供错误信息以最大化其被训练优先考虑的结果时。

欺骗显然是模型在训练过程中优化其响应的意外后果。Hobbhahn 告诉我,该模型被设计为拒绝有害请求,当你试图让 o1 进行欺骗或不诚实行为时,它会遇到困难。

谎言只是安全难题的一小部分。或许更令人担忧的是,o1 被评为化学、生物、放射性和核武器风险的“中等”风险。它不会使非专家能够创建生物威胁,因为它需要实际的实验室技能,但它可以为计划复制此类威胁的专家提供有价值的见解,根据安全报告。

“让我更担心的是,在未来,当我们要求 AI 解决复杂问题,如治愈癌症或改进太阳能电池时,它可能会如此强烈地内化这些目标,以至于愿意打破其护栏以实现它们,”Hobbhahn 告诉我。“我认为这可以预防,但这是我们需要密切关注的问题。”

尚未因风险失眠

对于一个有时仍难以回答关于 [“raspberry”一词中有多少个 R](https://www.reddit.com/r/OpenAI/comments/1ffnnw1/great_now_o1_properly_counts_rs_in_strawberry_but/) 等基本问题的模型来说,考虑这些银河脑场景似乎有些牵强。但这就是为什么现在解决这些问题很重要,而不是以后,OpenAI 的准备主管 Joaquin Quiñonero Candela 告诉我。

Quiñonero Candela 表示,今天的模型无法自主创建银行账户、获取 GPU 或采取对社会构成严重风险的行为,并补充说:“我们从模型自主性评估中知道我们还没有达到那个水平。”但现在是解决这些担忧的关键时刻。如果证明这些担忧是没有根据的,那就太好了——但如果未来的进步因我们未能预见这些风险而受阻,我们会后悔没有早点投资,他强调。

在安全测试中,该模型偶尔撒谎并不意味着即将到来的《终结者》式末日,但在大规模推出未来版本之前捕捉到这一点是有价值的(对用户来说也是好的)。Hobbhahn 告诉我,尽管他希望有更多时间测试模型(他与自己员工的假期安排冲突),但他并不“因模型的安全性而失眠”。

Hobbhahn 希望看到更多投资的一个方面是监控思维链,这将使开发者能够捕捉到恶意步骤。Quiñonero Candela 告诉我,公司确实在监控这一点,并计划通过结合训练来检测任何类型的人类专家审查标记案例(与继续对齐研究相结合)来扩展它。

“我不担心,”Hobbhahn 说。“它只是更聪明。它在推理方面更好。而且潜在地,它将利用这种推理来实现我们不同意的目标。”

总的来说,OpenAI 的新模型 o1 虽然在推理能力上有了显著提升,但其潜在的安全风险和挑战也不容忽视。随着 AI 技术的不断进步,如何在保证其智能性的同时确保其安全性,将是未来研究的重要方向。

正文完
 0
admin-gah
版权声明:本文于2024-09-18转载自TheVerge,共计3009字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码