共计 881 个字符,预计需要花费 3 分钟才能阅读完成。
OpenAI 最近发布了其GPT-4o 系统卡,这是一份详细的研究文件,概述了公司在发布最新模型之前所采取的安全措施和风险评估。
GPT-4o 在今年五月 公开发布。在发布之前,OpenAI 邀请了一组外部红队成员,即安全专家,来寻找系统的弱点,并评估模型的关键风险。这些专家检查了诸如 GPT-4o 可能创建未经授权的声音克隆、色情和暴力内容,或复制受版权保护的音频片段等风险。现在,这些评估结果正在被公开。
根据 OpenAI 自己的评估框架,研究人员发现 GPT-4o 的风险等级为“中等”。风险评估涵盖了网络安全、生物威胁、说服力和模型自主性四个主要类别。除了说服力被认为是低风险外,其他类别都被评估为低风险。研究人员发现,GPT-4o 的一些写作样本比人类撰写的文本更能影响读者的观点,尽管模型的样本总体上并不更具说服力。
OpenAI 发言人 Lindsay McCallum Rémy 向 The Verge 透露,系统卡包括由内部团队创建的准备情况评估,以及在 OpenAI 网站上列出的外部测试人员,如模型评估和威胁研究(METR)和 Apollo 研究,这些都为 AI 系统构建评估。
这不是 OpenAI 首次发布系统卡;之前的 GPT-4、 带有视觉的 GPT-4和 DALL-E 3 也进行了类似的测试并发布了研究结果。然而,OpenAI 在这个关键时刻发布系统卡,因为公司一直在不断受到对其安全标准的批评,从其自己的员工到州参议员。
此外,OpenAI 正在美国总统选举前夕发布一个高度多模态的模型。显然存在模型意外传播错误信息或被恶意行为者劫持的风险——即使 OpenAI 希望强调该公司正在测试现实场景以防止滥用。
已经有许多呼吁 OpenAI 更加透明,不仅在模型的训练数据上,而且在安全测试上。在加利福尼亚州,州参议员 Scott Wiener 正在努力通过一项监管大型语言模型的法案,包括如果其 AI 被用于有害方式,将使公司承担法律责任。如果该法案通过,OpenAI 的前沿模型在向公众提供之前必须遵守州规定的风险评估。但 GPT-4o 系统卡最大的收获是,尽管有一组外部红队成员和测试人员,但很多方面仍依赖 OpenAI 自我评估。