NVIDIA GB10 SoC：Blackwell架构的AI工作站核心

85次阅读

共计 1580 个字符，预计需要花费 4 分钟才能阅读完成。

在 Hot Chips 2025 的冰淇淋休息时间结束后，NVIDIA 开启了机器学习演示的第二部分。与昨天的图形演示类似，NVIDIA 并未过多展示未来硬件，而是更多地介绍了他们最新一代已上市的硬件。今天下午的演示重点聚焦于 GB10 SoC。

GB10 是 NVIDIA DGX Spark 小型工作站（前身为 DIGITS）的核心，这款工作站专为高性能基于 Arm 的计算设计，采用多芯片单芯片解决方案。GB10 包含一个基于 Blackwell 架构的 GPU 芯片和一个由联发科制造的 CPU 芯片，后者拥有 20 个 Arm CPU 核心。两个芯片均采用台积电的 3nm 工艺制造，技术上，GB10 是目前最先进的 Blackwell 产品。

NVIDIA GB10 SoC：Blackwell 架构的 AI 工作站核心

NVIDIA 首先仍然是一家 GPU 公司。因此，Blackwell 是 GB10 的核心和灵魂。在这种情况下，Blackwell 已被缩小到一个特别小的配置中，但它仍然支持 Blackwell 的所有主要功能，尤其是 FP4 支持。

GB10 还加入了其自身的技术，包括低功耗的 C2C 链接和对统一内存架构的支持——一个物理和逻辑内存。CPU 和 GPU 芯片都需要放置在一个单一的 2.5D 中介层上。

关键特性和优势：128GB 的统一 LPDDR5X 系统内存，足以微调多达 700 亿参数的模型。还有一个 ConnectX-7 网卡，允许将两个 DGX Spark 系统配对，以处理更大的模型。

NVIDIA 并不掩饰 DGX Spark 是一个入门设备——在 Spark 盒子上开发和测试，然后将完成的模型部署到 DGX Cloud。它可以通过标准墙插供电，与服务器盒子相比，这确实是一个值得注意的功能。

详细规格：20 个 CPU 核心，高达 4TB 的 SSD，HBM 内存。更多规格：两个芯片，均采用台积电 3nm 工艺制造。GPU 支持所有最新的 Blackwell 功能，包括 DLSS 和光线追踪。FP32 性能为 31 TFLOPS，FP4 性能为 1000 TFOPS。

核心基于 Arm 的 v9.2 架构。尽管 NVIDIA 没有透露是否是特定的 Arm Cortex/Neoverse 设计（但已确认这是一个现成的核心设计）。它们被分成两个集群，每个集群有 10 个核心。每个核心都有一个私有的 L2 缓存。256 位的 L5X-9400 内存接口，允许约 301GB/ 秒的内存带宽。

GPU 芯片支持最多 4 个显示器；3 个 DisplayPort 输出和一个 HDMI 2.1a 输出。GB10 SoC 的 TDP 为 140 瓦。

GPU 芯片内有一个相对较大的 24MB L2 缓存。这个 L2 缓存也实现了 CPU/GPU 的一致性。这种一致性在硬件层面进行管理，减少了一些性能开销，并为开发人员简化了操作。还实现了地址转换服务（ATS）。这使得整个图形 L2 缓存可以物理标记。

操作系统将 GPU 视为一个 PCIe 设备。支持 SR-IOV。并且包含一个 NVDEC 和一个 NVENC engine。

每个 DGX Spark 盒子都包含一个 ConnectX-7 网卡，允许将两个系统配对，并将 GB10 芯片连接起来。从 SoC 到网卡的 PCIe 5.0 x8 回程。（Patrick 指出，这意味着你只能获得 200Gbps 的网卡带宽。因此，两个端口不能同时以 200Gbps 运行）

如前所述，这是一个 NVIDIA 与联发科的合作项目，后者提供了 CPU 小芯片（S-die）。这是一个大事，尤其是因为芯片的内存控制器位于 CPU 小芯片上——因此 NVIDIA 依赖联发科提供高性能和可靠的内存子系统。

这也意味着联发科实现了部分 NVIDIA 的知识产权，包括显示控制器和 C2C 链接。在确保这一切正常工作之前，进行了大量的验证工作。这对 NVIDIA 来说似乎非常值得，因为 GB10 在第一次流片（A0）时就成功了。不需要重新流片来修复任何设计缺陷。

这就是 GB10，DGX Spark 背后的芯片。NVIDIA 希望利用这个小芯片完成大任务，使他们的核心 CUDA 生态系统工作负载能够在小型工作站盒子上运行。

正文完