共计 1000 个字符,预计需要花费 3 分钟才能阅读完成。
苹果最近在机器学习领域的研究带来了一些令人兴奋的进展,尤其是在使用 Nvidia GPU 时,生成 token 的速度有望提升近三倍。这无疑会加快 Apple Intelligence 相关模型的开发进程。
说到 AI 工具和应用程序,比如 Apple Intelligence,构建大型语言模型(LLMs)的过程一直是个难题。训练这些模型不仅耗费大量资源,还非常缓慢。通常,解决这个问题的方法就是购买更多硬件,但这意味着更高的能源成本。
2024 年初,苹果推出了 Recurrent Drafter(简称 ReDrafter),并将其开源。这是一种推测性解码方法,旨在提高训练效率。ReDrafter 结合了束搜索和动态树注意力,使用 RNN(循环神经网络)草稿模型来预测和验证多条路径的 token。与传统的自回归 token 生成技术相比,这种方法每步的 token 生成速度提高了最多 3.5 倍。
苹果并没有止步于此。他们在最近的一份报告中详细介绍了如何将 ReDrafter 应用于 Nvidia GPU 的生产环境中。Nvidia GPU 通常用于生成 LLM 的服务器,但这种高性能硬件价格不菲。一台多 GPU 服务器的硬件成本可能超过 25 万美元,还不包括基础设施和其他相关费用。
苹果与 Nvidia 合作,将 ReDrafter 集成到 Nvidia 的 TensorRT-LLM 推理加速框架中。由于 ReDrafter 使用了其他推测性解码方法未使用的操作符,Nvidia 不得不为其添加额外元素以使其正常工作。
通过这种集成,使用 Nvidia GPU 的机器学习开发者现在可以在生产环境中使用 ReDrafter 的加速 token 生成功能,而不仅仅局限于使用 Apple Silicon 的开发者。在 Nvidia GPU 上对数十亿参数的生产模型进行基准测试后,结果显示,贪婪编码的每秒生成 token 速度提高了 2.7 倍。
这意味着,用户可以期待更快的响应速度,而公司则可以在减少硬件投入的情况下提供更多服务。Nvidia 在其技术博客中表示,这种合作使 TensorRT-LLM“更强大和更灵活,使 LLM 社区能够创新更复杂的模型并轻松部署它们”。
值得一提的是,苹果还在研究使用亚马逊的 Trainium2 芯片来训练 Apple Intelligence 功能的模型。据称,使用这些芯片进行预训练时,效率将比现有硬件提高 50%。这一切都表明,苹果在 AI 领域的探索正在不断深入,未来可能会带来更多令人期待的创新。