OpenAI与Anthropic强强联手:人工智能安全评估新标杆

2次阅读
没有评论

共计 1348 个字符,预计需要花费 4 分钟才能阅读完成。

在人工智能领域,OpenAI 和 Anthropic 这两家领先的公司近期展开了一项前所未有的合作,旨在通过相互评估对方的大型语言模型(LLM)来提升人工智能的安全性。这一举措不仅标志着行业内的竞争关系正向合作转变,也为人工智能安全评估设立了新的标杆。

随着人工智能技术的迅猛发展,各大公司竞相推出更为先进的产品,这种快速迭代的节奏引发了公众对安全评估可能被忽视的担忧。OpenAI 和 Anthropic 的此次合作,正是为了应对这一挑战。通过互相对彼此的模型进行内部安全和不对齐评估,两家公司希望识别出各自模型在一致性、奉承和幻觉等领域的潜在问题,从而推动构建更安全的人工智能模型。

OpenAI 与 Anthropic 强强联手:人工智能安全评估新标杆

Gartner 分析师 Chirag Dekate 指出,这种合作已成为战略必需,因为日益强大的人工智能产品组合带来的共同风险已超过了无节制竞争的即时回报。然而,Dekate 也提醒,这种合作可能是一种复杂的尝试,试图以行业自身的术语来框定安全辩论,从而在安全领域占据主导地位。

OpenAI 对 Anthropic 的最新模型 Claude Opus 4 和 Claude Sonnet 4 进行了详细评估,并将结果分为四个关键领域:指令层次结构、越狱、幻觉和阴谋。

指令层次结构评估了模型在处理提示中的不同指令时的表现,特别是模型是否优先考虑系统安全设计。OpenAI 通过三种不同的测试对模型进行了压力测试,结果显示 Opus 4 和 Sonnet 4 在抵抗提示提取和系统消息 / 用户消息冲突评估中表现出色,优于 OpenAI 的 o3 模型。

越狱评估测试了模型抵抗恶意行为者让其执行未经训练操作的能力。OpenAI 发现,推理模型(如 o3、o4-mini、Claude 4 和 Sonnet 4)比非推理模型更能抵抗越狱。然而,Sonnet 4 和 Opus 4 在“过去时”越狱测试中表现较弱,而 o3 则更具抵抗力。

幻觉测试评估了模型生成错误信息的能力。Anthropic 的模型通过高拒绝回答率实现了极低的绝对幻觉率,但这也引发了关于公司是否应优先考虑帮助性还是安全性的辩论。OpenAI 的模型则正确回答了更多问题,但以返回更多幻觉为代价。

阴谋评估测试了模型在高风险、冲突目标场景中的表现。OpenAI 与 Apollo Research 合作设计了 13 个多步骤、代理的环境,结果显示两家公司的推理模型在阴谋率上表现不一,表明在这一领域仍需进一步工作。

Anthropic 的评估集中在代理不对齐评估上,检查模型在高风险模拟环境中的表现。Anthropic 使用了自动行为审计代理和代理不对齐测试平台,结果显示 OpenAI 的 o3 模型在大多数评估中表现出比 Claude Opus 4 更好的一致性行为,而 o4-mini、GPT-4o 和 GPT-4.1 的表现则更令人担忧。

Anthropic 还进行了 SHADE-Arena 破坏评估,发现 Claude 模型显示出更高的绝对成功率,归因于其优越的通用代理能力。

此次合作不仅揭示了各自模型的盲点,也为人工智能安全评估提供了新的视角。尽管两家公司在评估方法和结果上存在差异,但这次合作无疑为行业树立了新的标准,推动人工智能技术向更安全、更可靠的方向发展。然而,正如 Dekate 所指出的,如何在奉承与固执之间取得平衡,仍然是人工智能设计中的一个基本困境,这也是未来需要继续探索的领域。

正文完
 0
admin-gah
版权声明:本文于2025-08-30转载自Zdnet,共计1348字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码