共计 1518 个字符,预计需要花费 4 分钟才能阅读完成。
未来的 AI 可能不再依赖超级计算机,这得益于像 BitNet b1.58 2B4T 这样的创新模型。
在存储驱动大型语言模型底层神经网络的数值权重时,大多数现代 AI 模型依赖于 16 位或 32 位浮点数的精度。这种高精度虽然确保了模型的准确性,但也带来了巨大的内存占用(对于最大的模型来说,可能达到数百 GB)以及在响应提示时所需的复杂矩阵乘法所需的显著处理资源。
近日,微软的通用人工智能小组的研究人员发布了一种新的神经网络模型,该模型仅使用三个不同的权重值:-1、0 或 1。基于微软研究在 2023 年发表的前期工作,新模型的“三元”架构降低了整体复杂性,并带来了“计算效率上的显著优势”,研究人员写道,这使得它能够有效地在简单的桌面 CPU 上运行。尽管权重精度大幅降低,研究人员声称该模型“在广泛的任务中能够实现与类似规模的领先开源全精度模型相当的性能”。
简化模型权重的想法在 AI 研究中并不是全新的。多年来,研究人员一直在试验量化技术,将神经网络权重压缩到更小的内存范围内。近年来,最极端的量化努力集中在所谓的“BitNet”上,这些模型用单个位表示每个权重(表示 + 1 或 -1)。
新的 BitNet b1.58b 模型并没有走那么远——三元系统被称为“1.58 位”,因为这是表示三个值所需的平均位数(log(3)/log(2))。但它通过成为“第一个开源、原生的 1 位 LLM 大规模训练模型”与之前的研究区分开来,研究人员写道,该模型基于 4 万亿个标记的训练数据集,生成了 20 亿个标记的模型。
“原生”这一点是关键,因为许多之前的量化努力只是试图在预先存在的模型上进行事后的大小缩减,这些模型使用大浮点值进行“全精度”训练。这种训练后的量化可能会导致“显著的性能下降”,与它们所基于的模型相比,研究人员写道。与此同时,其他原生训练的 BitNet 模型规模较小,“可能尚未匹配更大、全精度对应模型的能力”,他们写道。
内存需求是降低模型内部权重复杂性最明显的优势。BitNet b1.58 模型仅需 0.4GB 内存即可运行,而其他大致相同参数规模的开源权重模型需要 2 到 5GB 内存。
但简化的权重系统也导致了在推理时更高效的操作,内部操作更多地依赖于简单的加法指令,而不是计算成本高的乘法指令。这些效率改进意味着 BitNet b1.58 比类似的全精度模型节省了 85% 到 96% 的能源,研究人员估计。
通过使用专为 BitNet 架构设计的高度优化的内核,BitNet b1.58 模型还可以比运行在标准全精度变压器上的类似模型快几倍。研究人员写道,该系统效率足够高,可以在单个 CPU 上达到“与人类阅读速度相当的速度(每秒 5 - 7 个标记)”(你可以在多个 ARM 和 x86 CPU 上下载并运行这些优化内核,或者尝试使用这个网络演示)。
关键的是,研究人员表示这些改进不会以在各种测试推理、数学和“知识”能力的基准测试中的性能为代价(尽管这一说法尚未得到独立验证)。研究人员发现,BitNet“在多个常见基准测试中的平均结果显示出与领先模型在其规模类别中几乎相当的能力,同时提供了显著提高的效率”。
尽管这个“概念验证”BitNet 模型取得了明显的成功,研究人员写道,他们并不完全理解为什么该模型在如此简化的权重下也能如此有效。“深入研究为什么 1 位大规模训练有效的理论基础仍然是一个开放领域,”他们写道。还需要更多的研究来使这些 BitNet 模型与当今最大模型的整体规模和上下文窗口“内存”竞争。
尽管如此,这项新研究展示了一种潜在的替代方法,适用于那些因在昂贵且强大的 GPU 上运行而面临硬件和能源成本螺旋上升的 AI 模型。有可能今天的“全精度”模型就像肌肉车,浪费了大量的能源和努力,而一个不错的紧凑型车可能也能提供类似的结果。