共计 1141 个字符,预计需要花费 3 分钟才能阅读完成。
Google Cloud 近日在 Cloud Storage 中引入了分层命名空间(Hierarchical Namespace,简称 HNS)功能,旨在通过优化数据组织、提升性能和增强可靠性,来更好地支持人工智能(AI)和机器学习(ML)工作负载。
在 AI/ML 流程中,特别是在模型训练阶段,频繁的检查点保存(Checkpointing)是确保模型状态的关键操作。传统的扁平命名空间存储系统在处理文件夹重命名时,通常需要逐个重写或删除对象,这种方式不仅效率低下,还容易出错。而通过 HNS,Cloud Storage 现在支持原子级文件夹操作,从而显著提升了检查点保存的速度和可靠性。根据 Google 的博客文章,基准测试显示,与传统的扁平命名空间存储桶相比,分层命名空间存储桶可以将检查点写入速度提高多达 20 倍。这一改进得益于新的 RenameFolder API,该 API 仅执行元数据操作,完成任务所需的时间仅为扁平命名空间存储桶的一小部分。
实际应用案例也证明了 HNS 的优势。例如,AssemblyAI 报告称,在使用 HNS 和 Cloud Storage FUSE 时,Google Cloud Storage 的吞吐量提高了 10 倍,训练速度提升了 15 倍。此外,HNS 通过提供优化的存储布局,进一步增强了性能,支持更高的读写操作每秒查询数(QPS)。这对于在大型集群上运行的 AI/ML 工作负载尤为重要,因为同步的 I/O 操作往往会成为性能瓶颈。与扁平命名空间存储桶相比,分层命名空间存储桶的初始对象读写 QPS 提高了多达 8 倍,从而加快了启动速度并更高效地利用了计算资源。
Google 工程高级总监 Jason Stevens 也对此表示认可,他指出:“Google Cloud Storage 的分层命名空间(HNS)加速了依赖文件系统语义的存储工作负载,如文件夹重命名,从而提高了 AI 工作负载的效率。通过高达 20 倍的检查点保存速度和 8 倍的 QPS,HNS 有助于最大化 AI/ML 管道的 GPU 和 TPU 利用率。”
要在 Google Cloud Storage 中启用分层命名空间功能,用户必须在创建存储桶时进行配置,因为该功能无法在现有存储桶上启用。使用 gcloud CLI 时,可以通过运行带有 `-enable-hierarchical-namespace` 标志的 `gcloud storage buckets create` 命令来启用该功能,同时指定所需的存储桶名称和位置。或者,在 Google Cloud Console 中,用户可以导航到 Cloud Storage 部分,选择“创建存储桶”,然后在高级设置中勾选启用分层命名空间的选项,最后完成其余设置。一旦启用,存储桶将通过支持类似文件系统的文件夹、原子重命名以及改进的读写操作吞吐量,来优化 AI 和机器学习用例。