共计 1539 个字符,预计需要花费 4 分钟才能阅读完成。
芯片制造商 AMD 与 OpenAI 达成了一项 6 千兆瓦 GPU 的协议,这标志着其在对抗 Nvidia 主导地位的首场重大胜利。然而,软件问题仍是其难以逾越的障碍。
AMD 于周一上午宣布了这一迄今为止最大的 AI 协议,根据合作协议,OpenAI 有权收购最多 1.6 亿股 AMD 股票,约占公司股份的 10%。AMD 则承诺从 2026 年底开始交付其下一代 Instinct MI450 芯片。
该协议的达成仅两周前,Nvidia 宣布与 OpenAI 达成 100 亿美元的合作,提供 10 千兆瓦的计算能力。OpenAI 的双供应商策略反映了一种谨慎的对冲:ChatGPT 的制造商需要总共 16 千兆瓦的算力来实现其基础设施目标,而在 GPU 短缺已成为常态的市场中,完全依赖 Nvidia 的风险过高。
AMD 首席执行官苏姿丰将其称为“全球最雄心勃勃的 AI 建设”,预计未来四年将带来数百亿美元的收入。认股权证结构将 AMD 的回报直接与执行情况挂钩——随着 OpenAI 的规模从 1 千兆瓦扩展到全部 6 千兆瓦,AMD 的股票将逐步解锁,同时还有额外的触发条件与 AMD 达到每股 600 美元的特定股价目标相关。
华尔街的反应迅速。AMD 股价在周一交易中开盘价为 226 美元,较上周五收盘价 164.67 美元大幅上涨,并创下至少一年半以来的最高价。当日涨幅超过 25%。另一方面,Nvidia 的股价因该消息下跌了 1%。
OpenAI 正在以前所未有的速度消耗资本,尽管预计 2025 年收入将达到 127 亿美元,但预计亏损将达到数十亿美元。该公司需要比 Nvidia 高价芯片更便宜的替代品,据估计,Nvidia 目前占据了数据中心 AI 加速器市场约 70% 至 95% 的份额。
AMD 的 MI450 系列承诺提供具有竞争力的规格——比 Nvidia 的 Blackwell 芯片更大的内存容量,并在大型语言模型基准测试中表现相当。但硬件只是问题的一半。AMD 的 ROCm 软件平台,作为 Nvidia CUDA 的回应,仍然是该公司的软肋。
CUDA 经过 18 年发展成为行业标准,拥有 500 万开发者,并在 PyTorch、TensorFlow 和所有主要 AI 框架中实现了无缝集成。尽管 ROCm 是开源的,但其开箱即用的体验存在严重问题,AI 开发者不愿处理。例如,最近的测试发现,AMD 的 MI300X 芯片在未经大量调试的情况下无法运行标准模型,研究人员称该软件“漏洞百出”。
软件差距解释了为什么 AMD 几乎是在免费赠送股权以达成这笔交易。虽然 Nvidia 凭借 CUDA 的可靠性享有溢价,但 AMD 不得不通过认股权证和联合开发的承诺来增加吸引力。
更广泛的芯片战争正在加剧。埃隆·马斯克的 xAI 计划为其孟菲斯超级计算机花费 120 亿美元购买 Nvidia GPU。谷歌继续开发其 TPU。亚马逊则推广其 Trainium 芯片。而 OpenAI 本身据报道正在与 Broadcom 合作开发一款价值 100 亿美元的定制“Titan XPU”芯片,用于推理,目标是在 2026 年投产。
推动这一转变的经济因素显而易见。单个 Nvidia GB300 NVL72 机架的成本约为 300 万美元。OpenAI 的基础设施路线图要求 23 千兆瓦的容量,这意味着数千亿美元的硬件成本。定制芯片和 AMD 等替代供应商提供了每计算单元 30-50% 的潜在节省。
对于 AMD 来说,与 OpenAI 的合作验证了其在多年追赶后的 AI 雄心。该公司上季度的数据中心收入达到 32.4 亿美元,同比增长 14%。但在 ROCm 达到 CUDA 的稳定性之前,AMD 将难以将这一标志性胜利转化为更大的市场份额。
当然,现在 OpenAI 与 AMD 高管坐在一起,拥有公司 10% 的股份,这可能会更容易实现。OpenAI 的工程资源可以帮助缩小这一差距,但大多数客户不会有这种优势。
与此同时,Nvidia 暂时保持了其 80% 的市场份额和溢价定价。