OpenAI-NVIDIA 1000 亿美元交易:10 千兆瓦人工智能基础设施

黄仁勋(Jensen Huang)和萨姆-阿尔特曼(Sam Altman)之间的握手代表的不仅仅是企业外交。他们的公司刚刚承诺建设10 千兆瓦的人工智能基础设施--其计算能力比九年前黄仁勋亲自送到 OpenAI 办公室的单个 DGX 系统还要高出十亿倍¹。英伟达计划在 OpenAI 部署这些系统时投资高达 1000 亿美元,黄仁勋称之为 "史上最大的人工智能基础设施项目"²。

双方的合作正值关键时刻。与此同时,英伟达™(NVIDIA®)公司的下一代Vera Rubin平台承诺在单个机架上提供8 exaflops的人工智能性能100TB的高速内存。这些技术指标听起来像科幻小说,但将从 2026 年末开始为生产工作负载提供动力。

合作十年迎来拐点。

英伟达™(NVIDIA®)与 OpenAI 之间的合作就像一个硅谷的起源故事。2016 年,黄晓庆亲手将英伟达的第一台 DGX 超级计算机送到 OpenAI 的旧金山总部,这一时刻被拍成了现在的经典照片。OpenAI 总裁格雷格-布罗克曼(Greg Brockman)回顾了这一时刻:"这种合作关系代表着比最初那台服务器高出十亿倍的计算能力。

两家公司通过多次技术飞跃,共同推动了界限的突破。英伟达™(NVIDIA®)的硬件推动了 OpenAI 的 GPT 系列的发展,从早期的语言模型到 ChatGPT 的爆炸性亮相。每一代产品所需的计算量都呈指数级增长,这促使英伟达加快了芯片开发周期,而 OpenAI 则不断完善模型架构,以最大限度地提高硬件效率。

新协议正式确定了行业观察家们长期以来的猜测:这些公司彼此需要。OpenAI 需要大量的计算资源来训练超级智能系统,而英伟达则从 OpenAI 的模型创新中获益,这些创新展示了英伟达的硬件能力。两家公司将 "针对 OpenAI 的模型和基础设施共同优化其路线图",这表明双方的深度技术合作超越了简单的买方-供应商关系。

Vera Rubin 平台重新定义了计算边界。

英伟达™(NVIDIA®)的Vera Rubin NVL144 CPX平台代表了人工智能基础架构设计领域的新一代飞跃。该系统在单个机架配置中集成了144 个 Rubin CPX GPU、144 个 Rubin GPU 和 36 个 Vera CPU,其人工智能性能是英伟达 GB300 NVL72 系统的 7.5 倍每秒 1.7 PB 的内存带宽使模型能够处理数百万个令牌上下文而不会降低性能。

Rubin CPX 架构引入了针对语言模型和视频处理工作负载的注意机制进行优化的专用电路。每个 Rubin CPX 在单个芯片上配备128 千兆字节的 GDDR7 内存,该平台在 FP4 中的性能达到50 petaflops,比 Blackwell 的 20 petaflops 提高了 2.5 倍。

Vera 是英伟达™(NVIDIA®)公司基于奥林巴斯核心架构设计的首款定制 CPU。Vera CPURubin GPU 通过英伟达™(NVIDIA®)MGX 系统紧密集成,消除了困扰分布式计算架构的传统瓶颈。

基础设施经济学改变了人工智能商业模式。

双方合作背后的金融工程揭示了人工智能基础设施的经济学演变过程。英伟达承诺在部署每个千兆瓦后逐步投资高达 1,000 亿美元,这创造了一种新颖的融资模式,将硬件提供商的激励与客户的成功结合在一起。

Vera Rubin 平台的规模化投资回报率可达 30 至 50 倍, 1 亿美元的资本支出可能带来 50 亿美元的收入。当系统达到足够的规模和利用率时,单位智能成本(这是两家公司都强调的指标)会大幅下降。

这种合作关系的结构表明,两家公司都从加密货币挖矿的繁荣-萧条周期中吸取了教训。英伟达不是根据投机性需求销售硬件,而是将投资与实际部署和使用联系起来。OpenAI 则根据用户增长和模型开发时间表获得了可预测的产能扩张。

区域影响重塑了数据中心的地理格局。

10 千兆瓦的部署需要前所未有的数据中心容量,这将重塑全球基础设施地图。根据上下文,10 千兆瓦大约相当于 1,000 万户家庭或一个大都市中心区的耗电量。在这种规模下,寻找具有可用电力、冷却能力和网络连接能力的地点所面临的工程挑战堪比计算的复杂性。

基础设施建设为地区数据中心市场创造了机遇,尤其是在以下地区 亚太地区拥有强大的电网和冷却优势.拥有可再生能源盈余和良好监管环境的国家将在这一部署中占据一席之地。该合作伙伴关系的时间表--首批系统于 2026 年底投入运行--为数据中心运营商和政府提供了一个准备基础设施的狭窄窗口。

在这种规模下,专业的部署技术变得至关重要。理论规格与运行性能之间的差异往往取决于冷却效率、电源分配和互连优化。Introl 等公司拥有在不同地区部署大规模 GPU 集群的经验,了解决定这些系统能否实现承诺性能的细微差别。

竞争愈演愈烈,但伙伴关系模式成为主流。

OpenAI-NVIDIA 联盟标志着整个行业正在向模型开发者与硬件供应商之间的深度合作转变。Anthropic 与亚马逊网络服务公司(Amazon Web Services)的合作以及谷歌对 TPU 的内部开发都是同一主题的变体。人工智能的发展需要软件和硬件创新之间前所未有的协调。

微软的地位增加了格局的复杂性。作为 OpenAI 最大的投资者和云合作伙伴,微软必须在其 Azure 基础设施投资与 OpenAI 与英伟达的直接关系之间取得平衡。这两家公司将自己的努力说成是互补的,但随着计算需求的爆炸式增长,资源分配决策将考验这种说法。

在研究其他方法时,合作模式的优势就显而易见了。开发定制芯片需要数年时间和数十亿美元的投资,而且结果不确定。完全依赖云计算提供商会带来利润叠加,使大规模培训在经济上面临挑战。OpenAI 与 NVIDIA 之间的直接合作消除了中间成本,同时加快了创新周期。

时间表显示了一个积极但可实现的部署时间表。

第一个千兆瓦级系统将于 2026 年下半年启动,届时英伟达 Rubin CPX 也将面世。¹² 这一积极的时间表要求多个工作流并行执行:芯片制造、数据中心建设、电力基础设施部署和软件优化。每个环节都存在潜在的瓶颈,可能会延误更广泛的 10 千兆瓦愿景的实现。

英伟达的制造合作伙伴,主要是台积电,必须为 Rubin 生产分配大量产能。Rubin CPX 所需的先进封装技术增加了超出传统 GPU 制造的复杂性。供应链的多样化对于避免单点故障(单点故障可能会破坏部署计划)至关重要。

2026-2030 年的部署窗口与若干技术转型相吻合。电力基础设施的现代化,特别是可再生能源的整合,将加速满足数据中心的需求。光互连技术日趋成熟,以满足日益增长的带宽需求。冷却创新,从直接液体冷却到浸入式系统,已成为标准而非试验。

工程挑战要求在整个堆栈中进行创新。

部署 10 千兆瓦的人工智能基础设施面临着将现有技术推向极限的工程挑战。这种规模的电力输送需要与公用事业公司协调,还可能需要专门的发电能力。一个 Vera Rubin 机架的耗电量高达兆瓦,产生的热量是传统的空气冷却无法有效散发的。

网络架构必须不断发展,以支持数千个 GPU 的模型并行性。Vera Rubin 机架内每秒 1.7 PB 的内存带宽意味着外部网络成为分布式训练的主要瓶颈。英伟达™(NVIDIA®)在光互连技术和交换芯片方面的投资解决了这些限制,但需要精心的系统设计。

软件优化同样至关重要。OpenAI 的模型必须有效利用 Rubin CPX 中的专用电路来实现注意力机制。两家公司承诺共同优化其路线图,这表明双方在编译器技术、内核优化和模型架构演进方面进行了深入合作。在这种规模下,软件优化带来的性能提升往往超过硬件改进。

对市场的影响超出了直接参与者的范围。

这种合作关系的连锁效应遍及整个技术生态系统。冷却技术供应商对液体冷却解决方案的需求空前高涨。电力基础设施公司加快了电网现代化项目。光学元件制造商扩大生产规模,以满足互连要求。

随着两家公司工程团队规模的扩大,人才争夺战愈演愈烈。了解 GPU 集群优化的基础架构工程师可以获得高薪。拥有分布式培训经验的软件工程师则变得弥足珍贵。这种合作关系为多个学科和地区创造了数以千计的高薪职位。

规模较小的人工智能公司面临着一个严峻的选择:与标价英伟达硬件的云提供商合作,或者接受限制模型雄心的计算约束。人工智能基础设施的经济性越来越倾向于规模化,这为整个行业的整合带来了天然的压力。

未来路线图暗示持续创新的节奏

虽然目前的协议重点关注 Vera Rubin 的部署,但两家公司都表示将在 2030 年之后继续合作。英伟达公司的年度架构进度(Blackwell、Rubin 和未命名的未来平台)表明其性能将不断提高。OpenAI 向人工通用智能的发展需要计算资源,而计算资源会随着能力的每一次飞跃而呈指数级增长。

共同优化承诺意味着共享技术开发,这可能会产生两家公司都无法独立实现的创新。针对特定型号架构的定制硅片、用于超密集部署的新型冷却方法或突破性的互连技术,都可能从这种合作中产生。

未来,其他参与者也可能以这种方式开展合作。芯片制造商、冷却专家和电源基础设施提供商可以加入生态系统,创建一个针对人工智能工作负载进行优化的集成堆栈。垂直整合的优势对于试图用分立元件组装类似功能的竞争对手来说是不可逾越的。

结论

OpenAI 与英伟达™(NVIDIA®)的合作将人工智能基础设施从辅助技术转变为战略差异化因素。1,000 亿美元的承诺和 10 千兆瓦的部署目标为计算雄心确立了新的基准。随着这些系统从2026年起陆续投入使用,它们将实现当今只存在于研究论文和科幻小说中的人工智能能力。

这种合作模式(深度技术整合、经济激励一致和风险共担)为变革性技术如何实现规模化提供了一个模板。虽然在电力输送、冷却效率和软件优化方面仍存在挑战,但该合作伙伴关系的结构鼓励解决这些问题,而不是绕过这些问题。

对于计划进行人工智能基础设施投资的企业来说,信息是明确的:增量时代已经结束。具有竞争力的人工智能部署需要以千兆瓦而不是兆瓦为单位进行思考。了解这些规模动态的专业基础设施合作伙伴对于从人工智能的下一阶段获取价值至关重要。OpenAI 和英伟达所设想的计算未来将比大多数人预期的更快到来。唯一的问题是,谁能做好利用它的准备。

参考资料

  1. 英伟达™(NVIDIA®)。英伟达™(NVIDIA®)与 OpenAI 宣布 "史上最大规模人工智能基础设施部署"。英伟达博客。2025 年 9 月 22 日。 https://blogs.nvidia.com/blog/openai-nvidia/.

  2. 英伟达™(NVIDIA®)。英伟达™(NVIDIA®)与 OpenAI 宣布 "史上最大规模人工智能基础设施部署"。英伟达博客。2025 年 9 月 22 日。 https://blogs.nvidia.com/blog/openai-nvidia/.

  3. 英伟达™(NVIDIA®)。英伟达™(NVIDIA®)与 OpenAI 宣布 "史上最大规模人工智能基础设施部署"。英伟达博客。2025 年 9 月 22 日。 https://blogs.nvidia.com/blog/openai-nvidia/.

  4. 人工智能杂志。"OpenAI与英伟达1000亿美元人工智能基础设施交易内幕"。AI Magazine.2025. https://aimagazine.com/news/behind-openai-and-nvidias-landmark-10gw-ai-data-centre-deal.

  5. 英伟达™(NVIDIA®)。英伟达™(NVIDIA®)与 OpenAI 宣布 "史上最大规模人工智能基础设施部署"。英伟达博客。2025 年 9 月 22 日。 https://blogs.nvidia.com/blog/openai-nvidia/.

  6. 人工智能杂志。"OpenAI与英伟达1000亿美元人工智能基础设施交易内幕"。AI Magazine.2025. https://aimagazine.com/news/behind-openai-and-nvidias-landmark-10gw-ai-data-centre-deal.

  7. 人工智能杂志。"OpenAI与英伟达1000亿美元人工智能基础设施交易内幕"。AI Magazine.2025. https://aimagazine.com/news/behind-openai-and-nvidias-landmark-10gw-ai-data-centre-deal.

  8. 半分析"NVIDIA GTC 2025 - 为推理而生、Vera Rubin、Kyber、CPO、Dynamo Inference、Jensen Math、Feynman"。2025 年 3 月 19 日。 https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/.

  9. Wccftech."英伟达™(NVIDIA®)Rubin 和 Rubin Ultra 搭配下一代 Vera CPU 明年开始上市:高达 1 TB HBM4 内存、4 个微粒大小的 GPU、100PF FP4 和 88 个 CPU 内核"。2025 年 3 月 18 日。 https://wccftech.com/nvidia-rubin-rubin-ultra-next-gen-vera-cpus-next-year-1-tb-hbm4-memory-4-reticle-sized-gpus-100pf-fp4-88-cpu-cores/.

  10. 英伟达™(NVIDIA®)。英伟达™(NVIDIA®)与 OpenAI 宣布 "史上最大规模人工智能基础设施部署"。英伟达博客。2025 年 9 月 22 日。 https://blogs.nvidia.com/blog/openai-nvidia/.

  11. 人工智能杂志。"OpenAI与英伟达1000亿美元人工智能基础设施交易内幕"。AI Magazine.2025. https://aimagazine.com/news/behind-openai-and-nvidias-landmark-10gw-ai-data-centre-deal.

  12. 人工智能杂志。"OpenAI与英伟达1000亿美元人工智能基础设施交易内幕"。AI Magazine.2025. https://aimagazine.com/news/behind-openai-and-nvidias-landmark-10gw-ai-data-centre-deal.

上一页
上一页

每机架 40-250 千瓦:超高密度数据中心解决方案

下一页
下一页

VVater 和 Introl 宣布合作重新定义人工智能数据中心的未来