共计 1580 个字符,预计需要花费 4 分钟才能阅读完成。
在 Hot Chips 2025 的冰淇淋休息时间结束后,NVIDIA 开启了机器学习演示的第二部分。与昨天的图形演示类似,NVIDIA 并未过多展示未来硬件,而是更多地介绍了他们最新一代已上市的硬件。今天下午的演示重点聚焦于 GB10 SoC。
GB10 是 NVIDIA DGX Spark 小型工作站(前身为 DIGITS)的核心,这款工作站专为高性能基于 Arm 的计算设计,采用多芯片单芯片解决方案。GB10 包含一个基于 Blackwell 架构的 GPU 芯片和一个由联发科制造的 CPU 芯片,后者拥有 20 个 Arm CPU 核心。两个芯片均采用台积电的 3nm 工艺制造,技术上,GB10 是目前最先进的 Blackwell 产品。
NVIDIA 首先仍然是一家 GPU 公司。因此,Blackwell 是 GB10 的核心和灵魂。在这种情况下,Blackwell 已被缩小到一个特别小的配置中,但它仍然支持 Blackwell 的所有主要功能,尤其是 FP4 支持。
GB10 还加入了其自身的技术,包括低功耗的 C2C 链接和对统一内存架构的支持——一个物理和逻辑内存。CPU 和 GPU 芯片都需要放置在一个单一的 2.5D 中介层上。
关键特性和优势:128GB 的统一 LPDDR5X 系统内存,足以微调多达 700 亿参数的模型。还有一个 ConnectX-7 网卡,允许将两个 DGX Spark 系统配对,以处理更大的模型。
NVIDIA 并不掩饰 DGX Spark 是一个入门设备——在 Spark 盒子上开发和测试,然后将完成的模型部署到 DGX Cloud。它可以通过标准墙插供电,与服务器盒子相比,这确实是一个值得注意的功能。
详细规格:20 个 CPU 核心,高达 4TB 的 SSD,HBM 内存。更多规格:两个芯片,均采用台积电 3nm 工艺制造。GPU 支持所有最新的 Blackwell 功能,包括 DLSS 和光线追踪。FP32 性能为 31 TFLOPS,FP4 性能为 1000 TFOPS。
核心基于 Arm 的 v9.2 架构。尽管 NVIDIA 没有透露是否是特定的 Arm Cortex/Neoverse 设计(但已确认这是一个现成的核心设计)。它们被分成两个集群,每个集群有 10 个核心。每个核心都有一个私有的 L2 缓存。256 位的 L5X-9400 内存接口,允许约 301GB/ 秒的内存带宽。
GPU 芯片支持最多 4 个显示器;3 个 DisplayPort 输出和一个 HDMI 2.1a 输出。GB10 SoC 的 TDP 为 140 瓦。
GPU 芯片内有一个相对较大的 24MB L2 缓存。这个 L2 缓存也实现了 CPU/GPU 的一致性。这种一致性在硬件层面进行管理,减少了一些性能开销,并为开发人员简化了操作。还实现了地址转换服务(ATS)。这使得整个图形 L2 缓存可以物理标记。
操作系统将 GPU 视为一个 PCIe 设备。支持 SR-IOV。并且包含一个 NVDEC 和一个 NVENC engine。
每个 DGX Spark 盒子都包含一个 ConnectX-7 网卡,允许将两个系统配对,并将 GB10 芯片连接起来。从 SoC 到网卡的 PCIe 5.0 x8 回程。(Patrick 指出,这意味着你只能获得 200Gbps 的网卡带宽。因此,两个端口不能同时以 200Gbps 运行)
如前所述,这是一个 NVIDIA 与联发科的合作项目,后者提供了 CPU 小芯片(S-die)。这是一个大事,尤其是因为芯片的内存控制器位于 CPU 小芯片上——因此 NVIDIA 依赖联发科提供高性能和可靠的内存子系统。
这也意味着联发科实现了部分 NVIDIA 的知识产权,包括显示控制器和 C2C 链接。在确保这一切正常工作之前,进行了大量的验证工作。这对 NVIDIA 来说似乎非常值得,因为 GB10 在第一次流片(A0)时就成功了。不需要重新流片来修复任何设计缺陷。
这就是 GB10,DGX Spark 背后的芯片。NVIDIA 希望利用这个小芯片完成大任务,使他们的核心 CUDA 生态系统工作负载能够在小型工作站盒子上运行。