OpenAI发布GPT-4o系统卡：详解安全措施与风险评估

211次阅读

共计 881 个字符，预计需要花费 3 分钟才能阅读完成。

OpenAI 最近发布了其GPT-4o 系统卡，这是一份详细的研究文件，概述了公司在发布最新模型之前所采取的安全措施和风险评估。

GPT-4o 在今年五月公开发布。在发布之前，OpenAI 邀请了一组外部红队成员，即安全专家，来寻找系统的弱点，并评估模型的关键风险。这些专家检查了诸如 GPT-4o 可能创建未经授权的声音克隆、色情和暴力内容，或复制受版权保护的音频片段等风险。现在，这些评估结果正在被公开。

根据 OpenAI 自己的评估框架，研究人员发现 GPT-4o 的风险等级为“中等”。风险评估涵盖了网络安全、生物威胁、说服力和模型自主性四个主要类别。除了说服力被认为是低风险外，其他类别都被评估为低风险。研究人员发现，GPT-4o 的一些写作样本比人类撰写的文本更能影响读者的观点，尽管模型的样本总体上并不更具说服力。

OpenAI 发言人 Lindsay McCallum Rémy 向 The Verge 透露，系统卡包括由内部团队创建的准备情况评估，以及在 OpenAI 网站上列出的外部测试人员，如模型评估和威胁研究（METR）和 Apollo 研究，这些都为 AI 系统构建评估。

这不是 OpenAI 首次发布系统卡；之前的 GPT-4、带有视觉的 GPT-4和 DALL-E 3 也进行了类似的测试并发布了研究结果。然而，OpenAI 在这个关键时刻发布系统卡，因为公司一直在不断受到对其安全标准的批评，从其自己的员工到州参议员。

此外，OpenAI 正在美国总统选举前夕发布一个高度多模态的模型。显然存在模型意外传播错误信息或被恶意行为者劫持的风险——即使 OpenAI 希望强调该公司正在测试现实场景以防止滥用。

已经有许多呼吁 OpenAI 更加透明，不仅在模型的训练数据上，而且在安全测试上。在加利福尼亚州，州参议员 Scott Wiener 正在努力通过一项监管大型语言模型的法案，包括如果其 AI 被用于有害方式，将使公司承担法律责任。如果该法案通过，OpenAI 的前沿模型在向公众提供之前必须遵守州规定的风险评估。但 GPT-4o 系统卡最大的收获是，尽管有一组外部红队成员和测试人员，但很多方面仍依赖 OpenAI 自我评估。

正文完

发表至： AI行业动态

2024-08-09 06:05

0