英伟达™(NVIDIA®)GB300 NVL72(Blackwell Ultra)为何如此重要 🤔

英伟达™(NVIDIA®)将72个Blackwell Ultra GPU和36个Grace CPU拼接成一个液冷机架式设备,该设备的功耗约为120千瓦,GB300 NVL72可提供1.1 exaFLOPS的FP4计算能力,比最初的GB200 NVL72多出5倍的人工智能性能(英伟达,2025年)。这一个机柜改变了现代数据中心内有关电源、冷却和布线的所有假设。以下是部署工程师在为首批交付的 GB300 NVL72 准备场地时了解到的情况。

1.解剖机架

组件数量关键规格功耗来源Grace-Blackwell计算托盘18~6.5千瓦每个117千瓦总计超微2025NVLink-5交换机托盘9130 TB/s聚合结构3.6千瓦总计超微2025电源架8132千瓦总直流输出0.8千瓦开销超微2025Bluefield-3 DPU18存储和安全卸载包含在计算中The Register 2024

该机柜重约 1.36 吨(3,000 磅),占地面积与传统的 42U 机架相同(The Register,2024 年)。GB300 NVL72 是 Blackwell Ultra 的代表,采用增强型 B300 GPU,每个 GPU 拥有 288 GB HBM3e 内存(比原来 B200 的 192 GB 内存多 50%),通过 12 层而不是 8 层 HBM3e 堆栈实现。与原来的双 GPU 配置相比,现在每个超级芯片由四个 B300 GPU 和两个 Grace CPU 组成。每个 Grace-Blackwell 超级芯片将 72 个主频为 2.6 GHz 的 Blackwell Ultra GPU 内核与主频为 3.1 GHz 的 128 核 Arm Neoverse V2 CPU 配对。集成的 HBM3e 内存为每个 GPU 提供 8 TB/s,容量为 288 GB。

实地考察:机架的重心比标准服务器高出 18%,这是因为计算资源密集地放置在上层托盘中。现在,最佳实践建议使用 M12 螺栓而不是标准笼形螺母锚定安装导轨,以解决满负荷运行时观察到的微振动问题。

2.喂饱野兽:电力输送

An GB300 NVL72 rack ships with built‑in PSU shelves, delivering 94.5% efficiency at full load. Peak consumption hits 120.8 kW during mixed‑precision training workloads—power quality analyzers typically record 0.97 power factor with <3% total harmonic distortion.

电压拓扑比较:

  • 208 伏/60 赫兹:335A 线路电流,需要 4/0 AWG 铜线(107mm²)。

  • 415 伏/50-60 赫兹:线路电流 168A,仅需 70mm² 铜材

  • 480 伏/60 赫兹:145A 线路电流,在北美的部署最少

行业最佳做法是通过 160A IEC 60309 连接器为每个机架提供双路 415V 三相馈电。与 208V 相比,这种选择可减少 75% 的 I²R 损耗,同时保持与欧洲设施标准的兼容性。现场测量结果表明,断路器面板在 22°C 的房间内通常保持低于 85% 的热降额。

谐波缓解:GB300 NVL72 机架在典型 AI 训练负载下的总谐波失真为 4.8%。超过 8 个机架的部署通常需要在专用变压器上安装 12 脉冲整流器,以保持符合 IEEE 519 标准。

3.冷却手册:热能工程现实

每个 Blackwell Ultra GPU 芯片的尺寸为 744 平方毫米,通过冷板接口可耗散高达 1,000 瓦的功率。Grace CPU 的 128 个内核可再增加 500 瓦。戴尔的 IR7000 计划将液体定位为 Blackwell 级设备的默认路径,声称使用封闭式后门热交换器,每个机架的功率可达 480 千瓦(戴尔科技,2024 年)。

建议的热等级

  • ≤80 kW/机架:后门热交换器,供水温度 18°C,流量 35 升/分钟

  • 80-132 千瓦/机架:必须使用直接到芯片 (DTC) 循环,15°C 供电,最小 30 升/分钟

  • 132 千瓦/机架:需要浸入式冷却或分体机架配置

现场部署的 DTC 规格:

  • 冷板 ΔT:满载时为 12-15°C(GPU 结点温度为 83-87°C)。

  • 压降:整个回路的压降为 2.1 巴,含 30% 丙二醇

  • 流量分布:所有 72 块 GPU 冷板的差异为 ±3

  • Leak rate: <2 mL/year per QDC fitting (tested over 8,760 hours)

重要见解:Blackwell Ultra 的功率传输网络具有微秒级瞬态,在梯度同步期间达到稳态功率的 1.4 倍。行业惯例建议将冷却功率设定为额定 TDP 的 110%,以处理这些热峰值,而不会出现 GPU 节流。

4.网络结构:管理 NVLink 5.0 和增强的连接性

每个GB300 NVL72包含72个配备NVLink 5.0的Blackwell Ultra GPU,每个GPU提供1.8 TB/s的带宽,整个系统的NVLink总带宽为130 TB/s。第五代 NVLink 每个链路的信令速率为 200 Gbps,每个 GPU 有 18 个链路。九个 NVSwitch 芯片以 300 纳秒的交换延迟路由这些流量,并支持 576 路 GPU 对 GPU 通信模式。

机架间连接现在采用 ConnectX-8 SuperNIC,为每个 GPU 提供 800 Gb/s 的网络连接(比上一代的 400 Gb/s 翻了一番),同时支持 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X 以太网平台。

布线结构:

  • Intra‑rack: 1,728 copper Twinax cables (75‑ohm impedance, <5m lengths)

  • 机架间通过 OM4 MMF 上的 800G 收发器提供 90 个 QSFP112 端口

  • 存储/管理:18 个 Bluefield-3 DPU,每个 DPU 有双 800G 链路

实地测量:

  • 光学预算:150 米 OM4 跨距上的 1.5 分贝插入损耗预算

  • BER performance: <10⁻¹⁵ sustained over 72‑hour stress tests

  • 连接器密度:每个机架 1 908 个终端(包括电源)

最佳实践包括运输带有 APC 抛光剂的预端接 144 光纤干线组件,并通过符合 TIA-568 标准的插入损耗/回转损耗测试来验证每个连接器。经验丰富的双人小组平均只需 2.8 小时即可完成 GB300 NVL72 光纤的安装,而技术人员现场铺设电缆则需要 7.5 小时。

Signal integrity insight: NVLink‑5 operates with 25 GBd PAM‑4 signaling. Typical installations maintain a 2.1 dB insertion loss budget per Twinax connection and <120 fs RMS jitter through careful cable routing and ferrite suppression.

5.经过实地测试的部署清单

结构要求:

  • 地面荷载:认证 ≥14 kN/m² (2,030 psf);分布重量超过大多数传统设施

  • 抗震支撑:根据 IBC 2021,4 区安装需要额外的 X 支撑

  • Vibration isolation: <0.5g acceleration at 10–1000 Hz to prevent NVLink errors

电力基础设施:

  • 双路 415V 馈电,每路 160A,配有施耐德 PM8000 分支电路监控器

  • UPS 规格:采用在线双转换拓扑结构,每个机架 150 千伏安(125% 安全裕度

  • Grounding: Isolated equipment ground with <1Ω resistance to facility MGB

冷却规格

  • Coolant quality: <50 µS/cm conductivity, 30% propylene glycol, pH 8.5–9.5

  • 过滤器更换:每 1,000 小时更换 5 微米褶式过滤器,每 2,000 小时更换 1 微米终级过滤器

  • 泄漏检测:所有 QDC 接头处的导电流体传感器,灵敏度为 0.1 毫升

备件库存:

  • 一个 NVSwitch 托盘(交付周期:6 周)

  • 两个 CDU 泵芯(MTBF:8,760 小时)

  • 20 个 QSFP112 收发器(现场故障率:每年 0.02)

  • 应急热界面材料(霍尼韦尔 PTM7950,5 克管)

远程服务水平协议:4 小时现场响应已成为行业标准,领先的部署合作伙伴在多个国家保持这一目标,正常运行时间>99%。

6.生产负荷下的性能鉴定

人工智能推理基准(来自早期部署报告):

  • DeepSeek R1-671B 型号:持续吞吐量高达每秒 1,000 个令牌

  • GPT-3 175B 参数模型:平均每秒 847 个令牌/GPU

  • 稳定扩散 2.1:1024×1024 分辨率下每秒 14.2 幅图像

  • ResNet-50 ImageNet 训练:2,340 个样本/秒的持续吞吐量

功率效率扩展:

  • 单机架利用率95% GPU 利用率下的 1.42 GFLOPS/Watt

  • 10 机架集群:1.38 GFLOPS/瓦(冷却开销降低了效率)

  • 网络闲置功率:每个机架 3.2 千瓦(NVSwitch + 收发器)

人工智能推理性能提升:与 Hopper 相比,GB300 NVL72 每用户每秒令牌数提高了 10 倍,每兆瓦 TPS 提高了 5 倍,使人工智能工厂的产出性能提高了 50 倍。

热循环效应:经过 2,000 小时的生产运行后,早期部署报告显示,由于热界面材料泵出,性能下降了 0.3%。按计划每 18 个月更换一次 TIM,可保持峰值性能。

7.云计算与本地部署总体拥有成本分析

Lambda 提供的 B200 GPU 价格低至每 GPU 小时 2.99 美元,并提供多年承诺(Lambda 2025)。结合行业部署的实际设施成本进行的财务建模显示

36 个月内每个机架的成本明细:

  • 硬件资本支出:370-400 万美元(包括备件和工具),用于 GB300 NVL72

  • 设施电力:31 万美元,0.08 美元/千瓦时,平均利用率 85

  • 冷却基础设施:18 万美元(CDU、管道、控制器)

  • 业务人员:24 万美元(0.25 个全职等值全额费用)

  • 总计:443 万至 473 万美元对等云计算 470 万美元

考虑到折旧、融资和机会成本,在 18 个月内平均使用率达到 67% 时即可实现盈亏平衡。企业首席财务官在获得预算可预测性的同时,还能避免被云计算供应商锁定。

8.GB300 与 GB200:了解 Blackwell Ultra

图为上一代 GB200

GB300 NVL72(Blackwell Ultra)是最初的 GB200 NVL72 的重大演进。主要改进包括:人工智能计算性能提高了 1.5 倍,每个 GPU 拥有 288 GB HBM3e 内存(相对于 192 GB),以及更加关注人工智能推理应用的测试时间扩展推理。

与 Hopper 相比,新架构将每用户每秒的代币数提高了 10 倍,每兆瓦的 TPS 提高了 5 倍,从而将人工智能工厂的潜在产出提高了 50 倍。这使得 GB300 NVL72 专门针对新兴的人工智能推理时代进行了优化,DeepSeek R1 等模型在推理过程中需要更多的计算量来提高准确性。

上市时间表:预计合作伙伴将在 2025 年下半年提供 GB300 NVL72 系统,而 GB200 NVL72 目前已经上市。

9.财富 500 强为何选择专业化部署合作伙伴

领先的部署专家已在 850 多个数据中心安装了 10 万多个 GPU,并通过广泛的现场工程团队维持 4 小时的全球服务级别协议 (SLA)。自 2022 年以来,业界已投入使用数千英里的光纤和数兆瓦的专用人工智能基础设施。

最近的部署指标:

  • 平均网站准备时间:6.2 周(低于行业平均 11 周的时间)

  • 首次通过成功率:通电测试成功率为 97.3

  • 部署后问题:前 90 天的组件故障率为 0.08

原始设备制造商交付硬件;专业合作伙伴将硬件转化为生产基础设施。在规划阶段,让经验丰富的部署团队参与进来,通过使用预制电源线束、预设冷却回路和工厂端接光纤束,可将时间缩短 45%。

临别赠言

GB300 NVL72 机柜实现了从 "机架式服务器 "到 "机柜式数据中心 "的根本性转变。物理学是无情的:120 千瓦的计算密度要求每个电源连接、冷却回路和光纤端接都要精确无误。在第一天就掌握工程基础知识,Blackwell Ultra 将在未来数年内提供变革性的人工智能推理性能。

准备好讨论我们无法用 2000 字写完的技术细节了吗?我们的部署工程师非常乐于与您进行这样的对话--请在以下网址安排一次技术深谈 solutions@introl.com.

参考资料

戴尔科技2024."戴尔人工智能工厂利用先进冷却、高密度计算和人工智能存储创新技术改造数据中心"。新闻稿,10 月 15 日。 戴尔科技新闻室

引言2025."GPU 基础设施部署和全球现场工程师"。6月23日访问。 introl.com

Lambda.2025."AI云定价--英伟达B200集群"。6月23日访问。 Lambda 实验室定价

英伟达™(NVIDIA®)。2025."GB300 NVL72 产品页面"。6 月 23 日访问。 英伟达数据中心

英伟达™(NVIDIA®)。2025."NVIDIA Blackwell Ultra AI Factory 平台为人工智能推理时代铺平道路"。新闻稿,3 月 18 日。 英伟达新闻

超微公司。2025."NVIDIA GB300 NVL72 超级集群数据表"。二月。 超微数据表

注册。2024.Mann, Tobias."一个机架,120 千瓦的计算能力:近距离观察英伟达™(NVIDIA®)的 DGX GB200 NVL72 猛兽"。3月21日 注册



下一页
下一页

可扩展的现场人员配置:高速启动关键基础设施