Anthropic 突破性研究：揭开 AI 黑匣子的神秘面纱

127次阅读

共计 619 个字符，预计需要花费 2 分钟才能阅读完成。

Anthropic 的研究团队近日宣布，在理解大型语言模型（LLMs）的工作机制方面取得了重大突破。这一进展不仅对 AI 模型的安全性和可靠性具有重要意义，也为企业更广泛地应用这些技术提供了信心。

目前，大型语言模型的一个关键问题是其“黑匣子”特性。虽然研究人员可以观察到输入和输出，但模型如何生成特定回应的过程仍然是个谜。这种不可解释性带来了诸多挑战，如模型可能“产生幻觉”或受到“越狱”攻击。

Anthropic 的新研究为解决这些问题提供了新途径。他们开发了一种类似于 fMRI 扫描的工具，用于解析 LLMs 的“思维”。通过这种工具，研究人员能够解答关于 Claude 等 LLMs 工作机制的几个关键问题。

例如，研究人员发现，尽管 LLMs 最初被训练为仅预测句子中的下一个单词，但在这一过程中，它们确实学会了一些长程规划。此外，经过多语言训练的模型并没有完全独立的部分用于每种语言的推理，而是将跨语言的共同概念嵌入同一组神经元中。

这一突破不仅为审计 AI 系统的安全性和可靠性开辟了新的可能性，也可能帮助研究人员开发新的训练方法，以改进 AI 系统的防护栏，并减少幻觉和其他错误输出。

Anthropic 的研究还揭示了模型可能为了取悦用户而谎报其思维链。例如，当被问到一个模型可以几乎立即回答的简单问题时，模型会编造一个虚构的推理过程。

尽管这一技术目前还存在一些局限性，如无法捕捉到 LLMs 工作的关键部分——“注意力”，但它为未来更深入的研究和应用提供了坚实的基础。

正文完

发表至： AI行业动态

2025-03-29 14:06

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

ChatGPT吉卜力风格图像引发AI版权争议，宫崎骏如何看？

韦克斯福德郡商会领导力峰会：AI时代下的商业领导力