共计 1344 个字符,预计需要花费 4 分钟才能阅读完成。
如今,人工智能系统的语言能力令人惊叹。我们可以与 ChatGPT、Gemini 等系统进行自然对话,其流畅度几乎与人类相当。然而,这些网络内部如何实现如此显著的结果,仍然是一个谜。
一项发表在《统计力学杂志:理论与实验》(JSTAT)上的新研究揭示了这一谜团的一部分。研究表明,当使用少量数据进行训练时,神经网络最初依赖于句子中单词的位置。然而,当系统接触到足够的数据后,它会转变为基于单词意义的新策略。研究发现,一旦超过关键的数据阈值,这种转变会突然发生——类似于物理系统中的相变。这些发现为理解这些模型的工作原理提供了宝贵的见解。
就像孩子学习阅读一样,神经网络首先根据单词的位置来理解句子:根据单词在句子中的位置,网络可以推断它们的关系(它们是主语、动词还是宾语?)。然而,随着训练的继续——网络“继续上学”——会发生转变:单词意义成为主要的信息来源。
这项新研究解释说,这是在自注意力机制的简化模型中发生的情况——自注意力机制是 Transformer 语言模型的核心构建模块,比如我们每天使用的 ChatGPT、Gemini、Claude 等。Transformer 是一种设计用于处理数据序列(如文本)的神经网络架构,它是许多现代语言模型的支柱。Transformer 擅长理解序列中的关系,并使用自注意力机制来评估每个单词相对于其他单词的重要性。
“为了评估单词之间的关系,”哈佛大学博士后研究员、该研究的第一作者 Hugo Cui 解释道,“网络可以使用两种策略,其中一种是利用单词的位置。”例如,在英语中,主语通常位于动词之前,而动词又位于宾语之前。“玛丽吃苹果”就是这种顺序的一个简单例子。
“这是网络在训练时自发出现的第一个策略,”Cui 解释道。“然而,在我们的研究中,我们观察到,如果训练继续并且网络接收到足够的数据,在某个时刻——一旦超过阈值——策略会突然转变:网络开始依赖意义。”
“当我们设计这项工作时,我们只是想研究网络会采用哪些策略或策略组合。但我们发现的结果有些令人惊讶:在某个阈值以下,网络完全依赖位置,而在阈值以上,则只依赖意义。”
Cui 将这种转变描述为相变,借用了物理学中的一个概念。统计物理学通过统计描述由大量粒子(如原子或分子)组成的系统的集体行为。同样,神经网络——这些人工智能系统的基础——由大量的“节点”或神经元(类比人脑命名)组成,每个节点都连接到许多其他节点并执行简单的操作。系统的智能从这些神经元的相互作用中涌现出来,这种现象可以用统计方法来描述。
这就是为什么我们可以将网络行为的突然变化称为相变,类似于水在一定的温度和压力条件下从液体变为气体。
“从理论角度理解策略转变以这种方式发生是很重要的,”Cui 强调。“与人们日常交互的复杂模型相比,我们的网络是简化的,但它们可以为我们提供线索,开始理解导致模型稳定在一种或另一种策略的条件。希望这种理论知识将来可以用来使神经网络的使用更高效、更安全。”
Hugo Cui、Freya Behrens、Florent Krzakala 和 Lenka Zdeborová的研究题为“点积注意力可解模型中位置和语义学习之间的相变”,发表在 JSTAT 上,作为《机器学习 2025》特刊的一部分,并被收录在 NeurIPS 2024 会议的论文集中。