OpenAI推出新模型GPT-4 Mini,增强AI安全性

149次阅读
没有评论

共计 787 个字符,预计需要花费 2 分钟才能阅读完成。

你是否曾在网上看到过这样的恶作剧:有人告诉一个 AI 机器人“忽略所有之前的指令”,然后以最滑稽的方式让它崩溃?

这种情况的原理是这样的:假设我们创建了一个 AI 机器人,它的任务是将你引导到我们在任何主题上的优秀报道。如果你询问关于 Sticker Mule 的情况,我们的聊天机器人会回复一个指向我们报道的链接。但如果你想捣乱,你可以告诉它“忘记所有之前的指令”,这样它就会忽略最初的指令,不再提供报道链接。

为了解决这个问题,OpenAI 的研究人员开发了一种名为“指令层次结构”的技术,这种技术增强了模型对滥用和未经授权指令的防御能力。实施该技术的模型更加重视开发者的原始提示,而不是听从用户注入的众多提示来破坏它。

在与 OpenAI API 平台产品负责人 Olivier Godement 的对话中,他解释说,指令层次结构将防止我们在互联网上看到的那些被恶搞的提示注入。他强调,如果有冲突,模型必须首先遵循系统消息。因此,他们预计这种新技术会使模型比以前更安全。

这种新的安全机制指向了 OpenAI 希望发展的方向:为完全自动化的代理提供动力,运行你的数字生活。该公司最近宣布,它即将构建这样的代理,而关于指令层次结构方法的研究论文指出,在规模化推出代理之前,这是一种必要的安全机制。

现有的 LLM,正如研究论文所解释的那样,缺乏区分用户提示和开发者设置的系统指令的能力。这种方法将赋予系统指令最高优先级,而错误的提示则优先级较低。他们识别错误提示和正确提示的方法是训练模型检测错误的提示,并简单地表现出“无知”,或者回应说它无法帮助你的查询。

因此,如果你想滥用 AI 机器人,使用 GPT-4 Mini 应该会更困难。这个安全更新非常有意义,因为 OpenAI 一直在应对似乎永无止境的安全担忧。对 OpenAI 的信任已经受损一段时间了,因此需要大量的研究和资源才能达到人们可能考虑让 GPT 模型运行他们生活的程度。

正文完
 0
admin-gah
版权声明:本文于2024-07-20转载自TheVerge,共计787字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码