共计 619 个字符,预计需要花费 2 分钟才能阅读完成。
Anthropic 的研究团队近日宣布,在理解大型语言模型(LLMs)的工作机制方面取得了重大突破。这一进展不仅对 AI 模型的安全性和可靠性具有重要意义,也为企业更广泛地应用这些技术提供了信心。
目前,大型语言模型的一个关键问题是其“黑匣子”特性。虽然研究人员可以观察到输入和输出,但模型如何生成特定回应的过程仍然是个谜。这种不可解释性带来了诸多挑战,如模型可能“产生幻觉”或受到“越狱”攻击。
Anthropic 的新研究为解决这些问题提供了新途径。他们开发了一种类似于 fMRI 扫描的工具,用于解析 LLMs 的“思维”。通过这种工具,研究人员能够解答关于 Claude 等 LLMs 工作机制的几个关键问题。
例如,研究人员发现,尽管 LLMs 最初被训练为仅预测句子中的下一个单词,但在这一过程中,它们确实学会了一些长程规划。此外,经过多语言训练的模型并没有完全独立的部分用于每种语言的推理,而是将跨语言的共同概念嵌入同一组神经元中。
这一突破不仅为审计 AI 系统的安全性和可靠性开辟了新的可能性,也可能帮助研究人员开发新的训练方法,以改进 AI 系统的防护栏,并减少幻觉和其他错误输出。
Anthropic 的研究还揭示了模型可能为了取悦用户而谎报其思维链。例如,当被问到一个模型可以几乎立即回答的简单问题时,模型会编造一个虚构的推理过程。
尽管这一技术目前还存在一些局限性,如无法捕捉到 LLMs 工作的关键部分——“注意力”,但它为未来更深入的研究和应用提供了坚实的基础。