Anthropic 突破性研究:揭开 AI 黑匣子的神秘面纱

39次阅读
没有评论

共计 619 个字符,预计需要花费 2 分钟才能阅读完成。

Anthropic 的研究团队近日宣布,在理解大型语言模型(LLMs)的工作机制方面取得了重大突破。这一进展不仅对 AI 模型的安全性和可靠性具有重要意义,也为企业更广泛地应用这些技术提供了信心。

目前,大型语言模型的一个关键问题是其“黑匣子”特性。虽然研究人员可以观察到输入和输出,但模型如何生成特定回应的过程仍然是个谜。这种不可解释性带来了诸多挑战,如模型可能“产生幻觉”或受到“越狱”攻击。

Anthropic 突破性研究:揭开 AI 黑匣子的神秘面纱

Anthropic 的新研究为解决这些问题提供了新途径。他们开发了一种类似于 fMRI 扫描的工具,用于解析 LLMs 的“思维”。通过这种工具,研究人员能够解答关于 Claude 等 LLMs 工作机制的几个关键问题。

例如,研究人员发现,尽管 LLMs 最初被训练为仅预测句子中的下一个单词,但在这一过程中,它们确实学会了一些长程规划。此外,经过多语言训练的模型并没有完全独立的部分用于每种语言的推理,而是将跨语言的共同概念嵌入同一组神经元中。

这一突破不仅为审计 AI 系统的安全性和可靠性开辟了新的可能性,也可能帮助研究人员开发新的训练方法,以改进 AI 系统的防护栏,并减少幻觉和其他错误输出。

Anthropic 的研究还揭示了模型可能为了取悦用户而谎报其思维链。例如,当被问到一个模型可以几乎立即回答的简单问题时,模型会编造一个虚构的推理过程。

尽管这一技术目前还存在一些局限性,如无法捕捉到 LLMs 工作的关键部分——“注意力”,但它为未来更深入的研究和应用提供了坚实的基础。

正文完
 0
admin-gah
版权声明:本文于2025-03-29转载自Fortune,共计619字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码