共计 2883 个字符,预计需要花费 8 分钟才能阅读完成。
如果你一直在考虑购买新笔记本电脑,无疑会注意到笔记本电脑越来越多地宣称具备 NPU 能力,这听起来与我们多年来在最佳智能手机中看到的硬件非常相似。推动这一趋势的原因是笔记本电脑追赶移动 AI 能力的努力,赋予笔记本电脑先进的 AI 功能,如微软的 Copilot,可以在设备上安全运行,无需互联网连接。以下是你需要了解的关于 NPU 的所有信息,为什么你的下一台笔记本电脑可能会有一个,以及你是否应该购买一台。
什么是 NPU?
NPU 是神经处理单元 (Neural Processing Unit) 的缩写。NPU 专门用于运行与神经网络 / 机器学习 /AI 任务相关的数学函数。虽然这些可以是独立的芯片,但它们越来越多地直接集成在片上系统 (SoC) 中,与更熟悉的 CPU 和 GPU 组件并列。NPU 专门用于加速机器学习,也就是 AI 任务。
NPU 芯片有多种形状和大小,并且根据芯片设计者的不同,它们通常被称为略有不同的名称。你已经可以在智能手机领域找到不同型号的 NPU 芯片。高通在其骁龙处理器中有 Hexagon,谷歌为其云和移动 Tensor 芯片提供 TPU,三星为其 Exynos 芯片有自己的实现。
这一概念现在也在笔记本电脑和 PC 领域流行起来。例如,最新的苹果 M4 中有神经引擎,高通的 Hexagon 功能集成在骁龙 X Elite 平台中,AMD 和英特尔已经开始将 NPU 芯片集成到他们最新的芯片组中。虽然不完全相同,但 NVIDIA 的 GPU 模糊了界限,因为 NVIDIA 的 GPU 具有惊人的数字处理能力。NPU 芯片正变得越来越普遍。
为什么设备需要 NPU?
如前所述,NPU 芯片专为处理机器学习工作负载(以及其他数学密集型任务)而设计。用外行的话说,NPU 芯片是一个非常有用,甚至可能是运行设备上 AI 而非云端 AI 所必需的组件。毫无疑问,你已经注意到,AI 似乎无处不在,将支持直接集成到产品中是这一旅程的关键步骤。
今天很多 AI 处理都是在云端完成的,但这并不理想,原因有几个。首先是延迟和网络要求;你无法在离线时访问工具,或者在高峰时段可能不得不等待长时间的处理时间。通过互联网发送数据也较不安全,当使用可以访问你的个人信息的 AI(如微软的 Copilot)时,这是一个非常重要的因素。
简而言之,设备上运行是首选。然而,AI 任务非常计算密集,在传统硬件上运行不佳。如果你尝试过通过 Stable Diffusion 在你的笔记本电脑上生成图像,你可能已经注意到这一点。对于更高级的任务,它可能会非常缓慢,尽管 CPU 可以很好地运行许多“更简单”的 AI 任务。
NPU 芯片使 AI 任务能够在设备上运行,无需互联网连接。
解决方案是采用专用硬件来加速这些高级任务。你可以在本文后面了解更多关于 NPU 芯片的功能,但简而言之,它们比 CPU 单独运行 AI 任务更快、更高效。它们的性能通常以每秒万亿次操作 (TOPS) 来衡量,但这并不是一个非常有用的指标,因为它没有告诉你每个操作的确切内容。相反,通常最好寻找告诉你处理大型模型令牌的速度有多快的数字。
谈到 TOPS,智能手机和早期笔记本电脑的 NPU 芯片评级在数十 TOPS。广义上讲,这意味着它们可以加速基本的 AI 任务,如相机对象检测以应用背景虚化或总结文本。如果你想运行大型语言模型或使用生成式 AI 快速生成媒体,你将需要一个更强大的加速器 /GPU,范围在数百或数千 TOPS。
NPU 与 CPU 有何不同?
神经处理单元与中央处理单元有很大不同,因为它设计用于运行的工作负载类型。你笔记本电脑或智能手机中的典型 CPU 相当通用,可满足广泛的应用程序,支持广泛的指令集(CPU 可以执行的功能),各种缓存和调用功能的方式(以加速重复循环),以及大的乱序执行窗口(因此 CPU 可以继续执行任务而不是等待)。
然而,机器学习工作负载不同,不需要那么多灵活性。首先,它们更依赖数学,通常需要重复的计算密集型指令,如矩阵乘法,并且需要快速访问大量内存。它们还经常处理不寻常的数据格式,如十六进制、八进制甚至四进制整数。相比之下,典型的 CPU 围绕 64 位整数和浮点数学构建(通常还添加了额外的指令)。
与 CPU 相比,NPU 芯片在运行 AI 任务时更快、更节能。
构建一个专门用于这些特定功能的并行大规模计算的 NPU 芯片,可以实现更快的性能,并且不会浪费在当前任务无用的空闲功能上的电力。然而,并非所有 NPU 芯片都是平等的。即使不考虑它们的纯粹数字处理能力,它们也可以构建为支持不同的整数类型和操作,这意味着某些 NPU 芯片更擅长处理某些模型。例如,一些智能手机 NPU 芯片运行在 INT8 甚至 INT4 格式以节省电力,但你会从更先进但耗电的 FP16 模型中获得更好的准确性。如果你需要真正先进的计算,专用 GPU 和外部加速器仍然比集成 NPU 芯片更强大、格式更多样。
作为备用,CPU 可以运行机器学习任务,但通常要慢得多。现代 Arm 的 CPU、苹果、英特尔和 AMD 支持必要的数学指令和一些较小的量化级别。它们的瓶颈通常只是它们可以并行运行多少这些功能以及它们可以多快地在内存中移动数据,而这正是 NPU 芯片专门设计的。
我应该购买带有 NPU 的笔记本电脑吗?
虽然远非必需,特别是如果你不关心 AI 趋势,但 NPU 芯片对于你在移动和 PC 领域找到的一些最新功能是必需的。
例如,微软的 Copilot Plus 指定了一个性能为 40TOPS 的 NPU 芯片作为其最低要求,这是你需要使用 Windows Recall 的。不幸的是,英特尔的 Meteor Lake 和 AMD 的 Ryzen 8000 芯片(在撰写本文时)在当前的笔记本电脑中没有达到 40TOPS 的 NPU 性能要求。然而,AMD 新宣布的 Stix Point Ryzen 芯片是兼容的。你不需要等待很长时间就能得到基于 Arm 的骁龙 X Elite 笔记本电脑的 x64 架构的替代品,因为预计 Stix Point 驱动的笔记本电脑将在 2024 年上半年推出。
流行的 PC 级工具,如 Audacity、DaVinci Resolve、Zoom 等,越来越多地尝试使用更苛刻的设备上 AI 功能。虽然对于核心工作负载来说不是必需的,但这些功能正变得越来越流行,如果你经常使用这些工具,AI 能力应该成为你下一次购买的因素。
CoPilot Plus 将仅在具有足够强大 NPU 芯片的笔记本电脑上得到支持。
在智能手机方面,功能和能力因品牌而异。例如,三星的 Galaxy AI 仅在其强大的旗舰 Galaxy S 手机上运行。它还没有将聊天助手或翻译器等功能带到价格实惠的 Galaxy A55,可能是因为三星缺乏必要的处理能力。也就是说,三星的一些功能也在云端运行,但这些功能可能不会为更实惠的购买提供资金。说到这里,谷歌在功能一致性方面也同样如此。你会发现谷歌 AI 的最佳附加功能在 Pixel 8 Pro 上,如视频增强——尽管 Pixel 8 甚至价格实惠的 8a 也运行许多相同的 AI 功能。
最终,AI 已经到来,NPU 芯片是享受无法在旧硬件上运行的设备上功能的关键。换句话说,我们仍处于 AI 工作负载的早期阶段,尤其是在笔记本电脑领域。软件要求和硬件能力只会随着时间的推移而提高。从这个意义上说,在市场和技术成熟之前等待再跳入也不会有任何损失。