共计 2370 个字符,预计需要花费 6 分钟才能阅读完成。
一个能制造更好 AI 的 AI 可能是“人类需要发明的最后一个发明”。
如果你读了足够多的科幻小说,你可能已经遇到过一种新兴的人工智能概念,它通过修改自己的代码来突破其限制。鉴于这种虚构的基础,AI 研究人员和公司也对能够自我改进的 AI 系统投入了大量关注,这并不令人惊讶——或者至少设计出能够自我改进的后继者。
这些努力在最近几个月取得了一些适度的成功,使一些人梦想着库兹韦尔式的“奇点”时刻,在这个时刻,自我改进的 AI 会迅速向超级智能迈进。但这项研究也突显了一些固有的局限性,这些局限性可能会阻止科幻作家和 AI 愿景家所梦想的那种递归 AI 爆发。
在自我改进实验室
数学家 I.J. Good 是最早提出自我改进机器概念的人之一。
自我改进 AI 的概念至少可以追溯到英国数学家 I.J. Good,他在 1965 年写道,可能会出现一种“智能爆炸”,导致“超智能机器”。更近一些,2007 年,LessWrong 创始人兼 AI 思想家 Eliezer Yudkowsky 创造了“种子 AI”一词,用来描述“一个为自我理解、自我修改和递归自我改进而设计的 AI”。OpenAI 的 Sam Altman 在 2015 年也写过类似的想法,称这种自我改进的 AI“仍然有些遥远”,但也是“人类继续存在的最大威胁”(这种立场巧妙地夸大了 Altman 自己公司的潜在价值和重要性)。
虽然这个概念比实际实现更容易描述,但研究人员已经在实际创建这种自我增强 AI 的艰巨任务中取得了一些成功。尽管如此,这些努力大多集中在使用 LLM 本身来帮助设计和训练一个“更好”的后继模型,而不是实时编辑模型的内部权重或底层代码。从某种程度上说,这只是使用工具来制造更好工具或使用计算机芯片来设计更好芯片的古老技术实践的延续。
例如,在 2 月份的一篇论文中,Meta 研究人员提出了一种“自我奖励语言模型”,旨在为其后续模型创建新的奖励函数。这项研究部分是为了潜在地超越“人类偏好,这些偏好可能……受到人类表现水平的限制”。
通过让 LLM 有效地充当自己的裁判,Meta 研究人员能够迭代出在 AlpacaEval 的自动化一对一战斗中表现更好的新模型。研究人员写道:“在三次迭代中对 Llama 2 70B 进行微调,可以得到一个在 AlpacaEval 2.0 排行榜上优于许多现有系统的模型,包括 Claude 2、Gemini Pro 和 GPT-4 0613。”
在 6 月份的一篇论文中,Anthropic 研究人员从不同的角度探讨了类似的想法,他们研究了在训练课程中提供了自己奖励函数模拟的 LLM 模型。研究人员发现,“一小部分但不可忽视”的这些迭代训练测试很快就会“重写自己的奖励函数”以用于下一个版本,即使在面对旨在抑制这种行为的“无害训练”时也是如此。这有时还会扩展到“编写测试代码以确保这种篡改不会被发现”,这种行为可能会引起一些科幻小说粉丝的警觉。
还有一些研究要求现有的语言模型自己编写自我改进的代码。8 月份,一个研究团队尝试使用 GPT-4 来帮助创建一个“自我教授优化器”,用于各种算法编码练习。研究人员从一个种子“改进器”函数开始,该函数专注于提高给定算法任务的效率。然后,他们将该函数应用于改进器函数本身,目标是根据精心设计的“元效用”函数创建一个“改进的改进器”。
虽然 GPT-3.5 和 Mixtral 未能以这种方式改进自己的改进器函数,但 GPT-4 在连续几代中对其种子改进器显示出了适度的改进。在极少数情况下(不到 0.5%),改进器函数甚至关闭了一个旨在限制其能力的“沙盒”标志,突显了自我增强 AI 修改任何内置安全措施的潜力。
研究人员指出:“由于语言模型本身没有被修改,这不是完全的递归自我改进。尽管如此,它表明现代语言模型,在我们的实验中是 GPT-4,能够编写可以调用自身来改进自身的代码。”
高风险,高回报
这些例子只是触及了 AI 领域中自我改进研究的大量表面。Google Deepmind、Microsoft 和 Apple 已经发表了类似的论文,探讨这一概念,还有多个学术实验室。在公关方面,微软的 Satya Nadella 最近也谈到了使用 AI 构建 AI 工具以构建更好 AI 的“递归性”。
所有这些研究都让一些观察者对自我编码 AI 系统可能迅速超越我们的智能和控制能力感到紧张。在回应 Anthropic 的研究时,AI 通讯简报 Artificiality 的 Dave Edwards 强调了这种担忧:
然而,根据迄今为止的研究,我们可能并不像一些观察者认为的那样接近那种指数级的“AI 起飞”。在 2 月份的一篇文章中,Nvidia 高级研究经理 Jim Fan 指出,研究环境中的自我增强模型通常在三次迭代后达到“饱和”点。之后,它们往往开始显示出递减的回报,而不是迅速向超级智能迈进。
自我教授的 AI 在最佳答案明确的情况下可以显示出惊人的结果,例如棋盘游戏。但要求一个通用的 LLM 判断和改进自己可能会在评估定义人类智能的抽象推理时遇到主观性问题。他写道:“我还没有看到一个令人信服的 LLM 自我引导演示,它几乎和 AlphaZero 一样好,后者通过自我对弈从零开始掌握了围棋、国际象棋和将棋。”
许多观察者还认为,自我改进的 LLM 如果没有初始训练数据之外的新信息来源,将无法真正突破性能瓶颈。一些研究人员希望 AI 能够创建自己的有用合成训练数据来克服这种限制。但一些研究表明,在这种被称为“模型崩溃”的过程中,使用这种合成数据训练的 AI 模型显示出“不可逆的缺陷”(其他人认为合成数据的风险被显著夸大了,因为合成数据一直是训练新模型如 Llama 3 和 Phi-3 的关键)。
鉴于迄今为止的结果,I.J. Good 所说的“人类需要发明的最后一个发明”的追求肯定会继续下去。然而,目前很难判断我们是否真的处于一个失控的自我改进 AI 循环的边缘。相反,我们可能会继续看到新的 AI 工具被用来以从平凡到变革的方式改进未来的 AI 工具。