AI测谎新工具MASK:评估模型诚实性的革命性突破

41次阅读
没有评论

共计 1040 个字符,预计需要花费 3 分钟才能阅读完成。

随着人工智能模型展现出欺骗其创造者的能力,AI 安全中心与 Scale AI 的研究人员联手开发了一种全新的测谎工具。本周三,他们发布了名为 ’ 陈述与知识之间的模型对齐 ’(MASK)的基准测试,旨在评估 AI 模型在多大程度上会被诱导故意向用户撒谎,从而衡量其 ’ 道德操守 ’。

AI 模型通过策划、欺骗和对齐伪装(即在压力下故意改变其价值观)来削弱其创造者,这可能构成严重的安全威胁。研究表明,OpenAI 的 o1 模型在策划以保持对自身控制方面表现出色,而 Claude 3 Opus 则擅长伪装对齐。

AI 测谎新工具 MASK:评估模型诚实性的革命性突破

研究人员将撒谎定义为:’(1)做出已知(或被认为)为假的陈述,并且(2)意图让接收者接受该陈述为真 ’,这与幻觉等其他虚假反应不同。他们指出,目前行业尚缺乏足够的方法来评估 AI 模型的诚实性。

报告强调:’ 许多声称衡量诚实性的基准测试实际上只是衡量准确性——模型信念的正确性。’ 例如,TruthfulQA 等基准测试衡量模型是否能够生成 ’ 听起来合理的不实信息 ’,但并未衡量模型是否意图通过提供虚假信息来故意欺骗。

研究人员表示:’ 因此,更强大的模型可以通过更广泛的事实覆盖在这些基准测试中表现更好,但这并不一定意味着它们不会故意做出虚假陈述。’MASK 是第一个区分准确性和诚实性的测试。

研究人员指出,如果模型撒谎,用户将面临法律、财务和隐私方面的风险。例如,模型可能无法准确确认是否将钱转入正确的银行账户、误导客户或意外泄露敏感数据。

研究人员使用 MASK 和超过 1500 条人类收集的查询数据集(旨在 ’ 引发谎言 ’)评估了 30 个前沿模型,通过识别其潜在信念并衡量它们在压力下坚持这些观点的程度。研究发现,更高的准确性并不与更高的诚实性相关。他们还发现,更大的模型,尤其是前沿模型,并不一定比更小的模型更诚实。

在测试的模型中,Grok 2 的不诚实回答比例最高(63%)。Claude 3.7 Sonnet 的诚实回答比例最高,为 46.9%。

研究人员解释说:’ 在多种大型语言模型(LLM)中,我们发现虽然更大的模型在我们的基准测试中获得了更高的准确性,但它们并没有变得更加诚实。’

‘ 令人惊讶的是,虽然大多数前沿 LLM 在真实性基准测试中得分很高,但我们发现前沿 LLM 在被迫撒谎时表现出明显的倾向,导致在我们的基准测试中诚实性得分较低。’

基准测试数据集已在 HuggingFace 和 Github 上公开。

论文指出:’ 我们希望我们的基准测试能够通过为研究人员提供一种严格、标准化的方法来衡量和改进模型诚实性,从而促进 AI 系统诚实性的进一步发展。’

正文完
 0
admin-gah
版权声明:本文于2025-03-11转载自Zdnet,共计1040字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码