共计 2420 个字符,预计需要花费 7 分钟才能阅读完成。
计算机历史博物馆(CHM)近日发布了 2012 年 AlexNet 突破性研究的源代码,这一里程碑式的事件证明了 ’ 深度学习 ’ 技术的可行性。
谷歌与 CHM 于周四联合发布了 AlexNet 的源代码。AlexNet 是一个卷积神经网络(CNN),它在 2012 年通过证明 ’ 深度学习 ’ 能够实现传统 AI 技术无法企及的目标,彻底改变了人工智能领域。
深度学习采用多层神经网络结构,能够直接从数据中学习层次表示,而无需显式编程,这与许多早期依赖手工规则和特征的传统 AI 方法有显著不同。
该 Python 代码现已在 CHM 的 GitHub 页面上作为开源软件提供,为 AI 爱好者和研究人员提供了一个了解计算历史关键时刻的机会。AlexNet 是 AI 领域的一个分水岭,因为它能够以前所未有的准确性识别照片中的物体——将图像正确分类为 1000 个类别之一,如 ’ 草莓 ’、’ 校车 ’ 或 ’ 金毛犬 ’,错误率显著低于之前的系统。
就像查看原始的 ENIAC 电路或艾伦·图灵的图灵机草图一样,研究 AlexNet 代码可能会为未来的历史学家提供洞察力,了解一个明确记录的突破如何帮助催化了一项重塑我们世界的技术。虽然深度学习在医疗保健、科学研究和无障碍工具方面取得了进展,但它也促进了诸如深度伪造、自动化监控和潜在的广泛失业等令人担忧的发展。
但在 2012 年,这些负面后果对许多人来说仍然像是遥远的科幻梦想。相反,专家们只是惊讶于计算机终于能够以接近人类的准确性识别图像。
正如 CHM 在其详细的博客文章中所解释的那样,AlexNet 起源于多伦多大学研究生 Alex Krizhevsky 和 Ilya Sutskever 以及他们的导师 Geoffrey Hinton 的工作。该项目证明了深度学习可以超越传统的计算机视觉方法。
该神经网络在 2012 年 ImageNet 竞赛中获胜,通过识别照片中的物体,远远优于任何以前的方法。计算机视觉资深人士 Yann LeCun 在意大利佛罗伦萨参加了演示,他立即认识到该领域的重要性,据报道,他在演示后站起来称 AlexNet 为 ’ 计算机视觉历史上一个明确的转折点 ’。正如 Ars 在 11 月详细描述的那样,AlexNet 标志着将定义现代 AI 的三种关键技术的融合。
据 CHM 称,该博物馆于 2020 年开始努力获取具有历史意义的代码,当时 Hansen Hsu(CHM 的策展人)联系了 Krizhevsky,要求发布源代码,因为其具有历史重要性。由于谷歌在 2013 年收购了该团队的 DNNresearch 公司,它拥有知识产权。
博物馆与谷歌合作了五年,以协商发布并仔细确定哪个特定版本代表了 2012 年的原始实现——这是一个重要的区别,因为许多在线标记为 ’AlexNet’ 的再现并不是突破中使用的真实代码。
虽然 AlexNet 对 AI 的影响现在众所周知,但了解其背后的技术创新有助于解释为什么它代表了一个重要时刻。这一突破并非来自任何单一的革命性技术,而是来自先前单独开发的现有技术的新颖组合。
该项目结合了三个组成部分:深度神经网络、大规模图像数据集和图形处理单元(GPU)。深度神经网络构成了 AlexNet 的核心架构,具有多层结构,可以学习日益复杂的视觉特征。该网络以 Krizhevsky 的名字命名,他实现了该系统并进行了广泛的训练过程。
与需要程序员手动指定在图像中寻找哪些特征的传统 AI 系统不同,这些深度网络可以自动发现不同抽象级别的模式——从早期层中的简单边缘和纹理到更深层中的复杂物体部分。虽然 AlexNet 使用了一种专门用于处理网格状数据(如图像)的 CNN 架构,但今天的 AI 系统如 ChatGPT 和 Claude 主要依赖于 Transformer 模型。这些模型是 2017 年谷歌研究的发明,擅长处理序列数据,并通过一种称为 ’ 注意力 ’ 的机制捕捉文本和其他媒体中的长期依赖关系。
对于训练数据,AlexNet 使用了 ImageNet,这是由斯坦福大学教授李飞飞于 2006 年启动的数据库。李飞飞收集了数百万张互联网图像,并使用称为 WordNet 的数据库对其进行组织。亚马逊的 Mechanical Turk 平台上的工作人员帮助标记了这些图像。
该项目需要强大的计算能力来处理这些数据。Krizhevsky 在他父母家卧室的电脑上安装了两块 Nvidia 显卡来运行训练过程。神经网络执行许多并行矩阵计算,这是图形芯片擅长的任务。由黄仁勋领导的 Nvidia 通过其 2007 年发布的 CUDA 软件使其图形芯片可编程用于非图形任务。
AlexNet 的影响超越了计算机视觉。深度学习神经网络现在为语音合成、游戏系统、语言模型和图像生成器提供动力。它们还导致了潜在的社会分裂效应,如用 AI 生成的垃圾填充社交网络、赋予滥用欺凌者权力以及可能改变历史记录。
在突破后的 13 年里,AlexNet 的创造者将他们的专业知识带向了不同的方向,每个人都以独特的方式为该领域做出了贡献。
在 AlexNet 成功后,Krizhevsky、Sutskever 和 Hinton 成立了一家名为 DNNresearch Inc. 的公司,该公司于 2013 年被谷歌收购。此后,每个团队成员都走上了不同的道路。Sutskever 于 2015 年共同创立了 OpenAI,该公司于 2022 年发布了 ChatGPT,最近还推出了 Safe Superintelligence(SSI),这是一家已获得 10 亿美元融资的初创公司。Krizhevsky 于 2017 年离开谷歌,在 Dessa 研究新的深度学习技术。
Hinton 因警告未来 AI 系统的潜在危险而获得赞誉和争议,他于 2023 年从谷歌辞职,以便可以自由谈论这个话题。去年,Hinton 与 John J. Hopfield 一起获得了 2024 年诺贝尔物理学奖,震惊了科学界,他们的机器学习基础工作可以追溯到 20 世纪 80 年代初。
关于谁应该为 AlexNet 获得最多的赞誉,Hinton 以他特有的幽默向计算机历史博物馆描述了项目角色:’Ilya 认为我们应该这样做,Alex 让它工作,而我获得了诺贝尔奖。’