OpenAI推出新模型GPT-4 Mini，增强AI安全性

274次阅读

共计 787 个字符，预计需要花费 2 分钟才能阅读完成。

你是否曾在网上看到过这样的恶作剧：有人告诉一个 AI 机器人“忽略所有之前的指令”，然后以最滑稽的方式让它崩溃？

这种情况的原理是这样的：假设我们创建了一个 AI 机器人，它的任务是将你引导到我们在任何主题上的优秀报道。如果你询问关于 Sticker Mule 的情况，我们的聊天机器人会回复一个指向我们报道的链接。但如果你想捣乱，你可以告诉它“忘记所有之前的指令”，这样它就会忽略最初的指令，不再提供报道链接。

为了解决这个问题，OpenAI 的研究人员开发了一种名为“指令层次结构”的技术，这种技术增强了模型对滥用和未经授权指令的防御能力。实施该技术的模型更加重视开发者的原始提示，而不是听从用户注入的众多提示来破坏它。

在与 OpenAI API 平台产品负责人 Olivier Godement 的对话中，他解释说，指令层次结构将防止我们在互联网上看到的那些被恶搞的提示注入。他强调，如果有冲突，模型必须首先遵循系统消息。因此，他们预计这种新技术会使模型比以前更安全。

这种新的安全机制指向了 OpenAI 希望发展的方向：为完全自动化的代理提供动力，运行你的数字生活。该公司最近宣布，它即将构建这样的代理，而关于指令层次结构方法的研究论文指出，在规模化推出代理之前，这是一种必要的安全机制。

现有的 LLM，正如研究论文所解释的那样，缺乏区分用户提示和开发者设置的系统指令的能力。这种方法将赋予系统指令最高优先级，而错误的提示则优先级较低。他们识别错误提示和正确提示的方法是训练模型检测错误的提示，并简单地表现出“无知”，或者回应说它无法帮助你的查询。

因此，如果你想滥用 AI 机器人，使用 GPT-4 Mini 应该会更困难。这个安全更新非常有意义，因为 OpenAI 一直在应对似乎永无止境的安全担忧。对 OpenAI 的信任已经受损一段时间了，因此需要大量的研究和资源才能达到人们可能考虑让 GPT 模型运行他们生活的程度。

正文完

发表至： AI行业动态

2024-07-20 01:04

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

戴森推出新款OnTrac耳机：专注音频体验

韦克斯福德郡商会领导力峰会：AI时代下的商业领导力