CNCF Dragonfly 正式毕业：P2P技术如何加速容器与AI模型分发？

28次阅读

共计 1529 个字符，预计需要花费 4 分钟才能阅读完成。

近日，云原生计算基金会宣布，其孵化的开源项目 Dragonfly 正式毕业。这标志着这款基于 P2P 技术 的镜像与文件分发系统，其成熟度与稳定性已得到大规模生产环境的验证，能够高效支持数千个节点间的 容器镜像 与大型 AI 模型 的快速分发。

CNCF Dragonfly 正式毕业：P2P 技术如何加速容器与 AI 模型分发？

作为一款专为 Kubernetes 环境设计的 点对点文件分发系统，Dragonfly 自 2018 年进入 CNCF 孵化，其开源代码已在众多实际部署中证明了其能力。它不仅能加速 CI/CD 流水线，还能有效应对边缘计算场景下的分发挑战，因此被多家处理大规模 AI 工作负载的组织所采用。

Dragonfly 最初由阿里云为解决内部跨网络镜像分发效率问题而开发。它的核心价值在于，能够近乎实时地将容器镜像同步至数千个节点，并在文件处理、缓存与日志管理方面表现稳健。截至目前，已有来自 130 家公司的 271 名贡献者为其提交了超过 26,000 次代码提交。

P2P 文件共享机制 能够显著提升云原生集群中容器镜像的分发速度，并大幅减轻上游镜像仓库服务器的网络负载。这项技术通过充分调度集群内各节点的带宽资源，有效避免了单一服务器在面对海量镜像拉取请求时成为性能瓶颈。

在 Dragonfly 构建的 P2P 网络中，各个节点（对等点）可以直接相互共享已下载的文件片段，从而避免所有流量都冲击中心服务器。需要注意的是，Dragonfly 并非纯粹的 P2P 架构，它仍依赖超级节点来智能调度和控制整个网络的分发流程。具体来说，每个节点上的 dfget 代理负责下载文件分块，而 dfdaemon 代理则负责拦截容器引擎的镜像拉取请求并将其导向 dfget 处理。

作为成熟的 CNCF 项目，Dragonfly 在过去十年中已建立起完善的支持体系。用户可以通过 Helm Chart 快速部署，并轻松集成 Prometheus 与 OpenTelemetry 实现全面的系统监控。

为了进一步提升传输效率，Dragonfly 支持基于 gRPC 协议运行。同时，通过与 Harbor 开源镜像仓库集成，可以实现镜像的“预热”功能，从而让镜像在集群内的共享速度更快。此外，项目还兼容 CNCF 的 ModelPack 规范，专门用于优化大型 AI 模型的分发流程。

其子项目 Nydus 更是将性能推向极致。Nydus 维护者 Jiang Liu 指出：“Dragonfly 与 Nydus 的结合大幅缩短了容器镜像和 AI 模型的启动时间，增强了系统的弹性与效率。”Nydus 通过创新的镜像格式，实现了按需加载，进一步加速了分发和启动过程。

Dragonfly 已在全球多家领先的云原生服务中得到成功应用，尤其在亚洲地区取得了显著成效。CNCF 披露了若干典型用例：

阿里巴巴：Dragonfly 已成为其容器镜像与数据分发系统的核心组件，支撑着双十一等极端高峰业务场景，并在 AI 模型数据分发与缓存加速中持续发挥作用。
蚂蚁集团：通过 Dragonfly 为其上万个 Kubernetes 节点节省了大量传输带宽。结合 Nydus 技术，其镜像拉取时间降至接近零，该方案同样被用于大型语言模型的迁移任务。
Datadog：这家可观测性平台采用集成 Nydus 的 Dragonfly，将节点守护进程集的启动时间从原先镜像拉取所需的五分钟压缩至数秒。
滴滴：中国移动出行平台滴滴使用 Dragonfly 实现企业级的大规模文件同步与镜像分发。
快手：这家容器镜像服务商计划引入 Dragonfly，以支撑其数万服务、数十万台服务器规模的庞大镜像分发需求。

从这些案例可以看出，Dragonfly 凭借其高效的 P2P 分发技术 ，正在成为解决云原生时代 容器镜像 与 AI 模型 分发挑战的关键基础设施，其毕业标志着这项技术已准备好为更广泛的行业提供成熟可靠的服务。

正文完