英伟达™（NVIDIA®）将72个Blackwell Ultra GPU和36个Grace CPU拼接成一个液冷机架式设备，该设备的功耗约为120千瓦，GB300 NVL72可提供1.1 exaFLOPS的FP4计算能力，比最初的GB200 NVL72多出5倍的人工智能性能（英伟达，2025年）。这一个机柜改变了现代数据中心内有关电源、冷却和布线的所有假设。以下是部署工程师在为首批交付的 GB300 NVL72 准备场地时了解到的情况。

1.解剖机架

组件数量关键规格功耗来源Grace-Blackwell计算托盘18~6.5千瓦每个117千瓦总计超微2025NVLink-5交换机托盘9130 TB/s聚合结构3.6千瓦总计超微2025电源架8132千瓦总直流输出0.8千瓦开销超微2025Bluefield-3 DPU18存储和安全卸载包含在计算中The Register 2024

该机柜重约 1.36 吨（3,000 磅），占地面积与传统的 42U 机架相同（The Register，2024 年）。GB300 NVL72 是 Blackwell Ultra 的代表，采用增强型 B300 GPU，每个 GPU 拥有 288 GB HBM3e 内存（比原来 B200 的 192 GB 内存多 50%），通过 12 层而不是 8 层 HBM3e 堆栈实现。与原来的双 GPU 配置相比，现在每个超级芯片由四个 B300 GPU 和两个 Grace CPU 组成。每个 Grace-Blackwell 超级芯片将 72 个主频为 2.6 GHz 的 Blackwell Ultra GPU 内核与主频为 3.1 GHz 的 128 核 Arm Neoverse V2 CPU 配对。集成的 HBM3e 内存为每个 GPU 提供 8 TB/s，容量为 288 GB。

实地考察：机架的重心比标准服务器高出 18%，这是因为计算资源密集地放置在上层托盘中。现在，最佳实践建议使用 M12 螺栓而不是标准笼形螺母锚定安装导轨，以解决满负荷运行时观察到的微振动问题。

2.喂饱野兽：电力输送

An GB300 NVL72 rack ships with built‑in PSU shelves, delivering 94.5% efficiency at full load. Peak consumption hits 120.8 kW during mixed‑precision training workloads—power quality analyzers typically record 0.97 power factor with <3% total harmonic distortion.

电压拓扑比较：

208 伏/60 赫兹：335A 线路电流，需要 4/0 AWG 铜线（107mm²）。
415 伏/50-60 赫兹：线路电流 168A，仅需 70mm² 铜材
480 伏/60 赫兹：145A 线路电流，在北美的部署最少

行业最佳做法是通过 160A IEC 60309 连接器为每个机架提供双路 415V 三相馈电。与 208V 相比，这种选择可减少 75% 的 I²R 损耗，同时保持与欧洲设施标准的兼容性。现场测量结果表明，断路器面板在 22°C 的房间内通常保持低于 85% 的热降额。

谐波缓解：GB300 NVL72 机架在典型 AI 训练负载下的总谐波失真为 4.8%。超过 8 个机架的部署通常需要在专用变压器上安装 12 脉冲整流器，以保持符合 IEEE 519 标准。

3.冷却手册：热能工程现实

每个 Blackwell Ultra GPU 芯片的尺寸为 744 平方毫米，通过冷板接口可耗散高达 1,000 瓦的功率。Grace CPU 的 128 个内核可再增加 500 瓦。戴尔的 IR7000 计划将液体定位为 Blackwell 级设备的默认路径，声称使用封闭式后门热交换器，每个机架的功率可达 480 千瓦（戴尔科技，2024 年）。

建议的热等级

≤80 kW/机架：后门热交换器，供水温度 18°C，流量 35 升/分钟
80-132 千瓦/机架：必须使用直接到芯片 (DTC) 循环，15°C 供电，最小 30 升/分钟
132 千瓦/机架：需要浸入式冷却或分体机架配置

现场部署的 DTC 规格：

冷板 ΔT：满载时为 12-15°C（GPU 结点温度为 83-87°C）。
压降：整个回路的压降为 2.1 巴，含 30% 丙二醇
流量分布：所有 72 块 GPU 冷板的差异为 ±3
Leak rate: <2 mL/year per QDC fitting (tested over 8,760 hours)

重要见解：Blackwell Ultra 的功率传输网络具有微秒级瞬态，在梯度同步期间达到稳态功率的 1.4 倍。行业惯例建议将冷却功率设定为额定 TDP 的 110%，以处理这些热峰值，而不会出现 GPU 节流。

4.网络结构：管理 NVLink 5.0 和增强的连接性

每个GB300 NVL72包含72个配备NVLink 5.0的Blackwell Ultra GPU，每个GPU提供1.8 TB/s的带宽，整个系统的NVLink总带宽为130 TB/s。第五代 NVLink 每个链路的信令速率为 200 Gbps，每个 GPU 有 18 个链路。九个 NVSwitch 芯片以 300 纳秒的交换延迟路由这些流量，并支持 576 路 GPU 对 GPU 通信模式。

机架间连接现在采用 ConnectX-8 SuperNIC，为每个 GPU 提供 800 Gb/s 的网络连接（比上一代的 400 Gb/s 翻了一番），同时支持 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X 以太网平台。

布线结构：

Intra‑rack: 1,728 copper Twinax cables (75‑ohm impedance, <5m lengths)
机架间通过 OM4 MMF 上的 800G 收发器提供 90 个 QSFP112 端口
存储/管理：18 个 Bluefield-3 DPU，每个 DPU 有双 800G 链路

实地测量：

光学预算：150 米 OM4 跨距上的 1.5 分贝插入损耗预算
BER performance: <10⁻¹⁵ sustained over 72‑hour stress tests
连接器密度：每个机架 1 908 个终端（包括电源）

最佳实践包括运输带有 APC 抛光剂的预端接 144 光纤干线组件，并通过符合 TIA-568 标准的插入损耗/回转损耗测试来验证每个连接器。经验丰富的双人小组平均只需 2.8 小时即可完成 GB300 NVL72 光纤的安装，而技术人员现场铺设电缆则需要 7.5 小时。

Signal integrity insight: NVLink‑5 operates with 25 GBd PAM‑4 signaling. Typical installations maintain a 2.1 dB insertion loss budget per Twinax connection and <120 fs RMS jitter through careful cable routing and ferrite suppression.

5.经过实地测试的部署清单

结构要求：

地面荷载：认证 ≥14 kN/m² (2,030 psf)；分布重量超过大多数传统设施
抗震支撑：根据 IBC 2021，4 区安装需要额外的 X 支撑
Vibration isolation: <0.5g acceleration at 10–1000 Hz to prevent NVLink errors

电力基础设施：

双路 415V 馈电，每路 160A，配有施耐德 PM8000 分支电路监控器
UPS 规格：采用在线双转换拓扑结构，每个机架 150 千伏安（125% 安全裕度
Grounding: Isolated equipment ground with <1Ω resistance to facility MGB

冷却规格

Coolant quality: <50 µS/cm conductivity, 30% propylene glycol, pH 8.5–9.5
过滤器更换：每 1,000 小时更换 5 微米褶式过滤器，每 2,000 小时更换 1 微米终级过滤器
泄漏检测：所有 QDC 接头处的导电流体传感器，灵敏度为 0.1 毫升

备件库存：

一个 NVSwitch 托盘（交付周期：6 周）
两个 CDU 泵芯（MTBF：8,760 小时）
20 个 QSFP112 收发器（现场故障率：每年 0.02）
应急热界面材料（霍尼韦尔 PTM7950，5 克管）

远程服务水平协议：4 小时现场响应已成为行业标准，领先的部署合作伙伴在多个国家保持这一目标，正常运行时间>99%。

6.生产负荷下的性能鉴定

人工智能推理基准（来自早期部署报告）：

DeepSeek R1-671B 型号：持续吞吐量高达每秒 1,000 个令牌
GPT-3 175B 参数模型：平均每秒 847 个令牌/GPU
稳定扩散 2.1：1024×1024 分辨率下每秒 14.2 幅图像
ResNet-50 ImageNet 训练：2,340 个样本/秒的持续吞吐量

功率效率扩展：

单机架利用率95% GPU 利用率下的 1.42 GFLOPS/Watt
10 机架集群：1.38 GFLOPS/瓦（冷却开销降低了效率）
网络闲置功率：每个机架 3.2 千瓦（NVSwitch + 收发器）

人工智能推理性能提升：与 Hopper 相比，GB300 NVL72 每用户每秒令牌数提高了 10 倍，每兆瓦 TPS 提高了 5 倍，使人工智能工厂的产出性能提高了 50 倍。

热循环效应：经过 2,000 小时的生产运行后，早期部署报告显示，由于热界面材料泵出，性能下降了 0.3%。按计划每 18 个月更换一次 TIM，可保持峰值性能。

7.云计算与本地部署总体拥有成本分析

Lambda 提供的 B200 GPU 价格低至每 GPU 小时 2.99 美元，并提供多年承诺（Lambda 2025）。结合行业部署的实际设施成本进行的财务建模显示

36 个月内每个机架的成本明细：

硬件资本支出：370-400 万美元（包括备件和工具），用于 GB300 NVL72
设施电力：31 万美元，0.08 美元/千瓦时，平均利用率 85
冷却基础设施：18 万美元（CDU、管道、控制器）
业务人员：24 万美元（0.25 个全职等值全额费用）
总计：443 万至 473 万美元对等云计算 470 万美元

考虑到折旧、融资和机会成本，在 18 个月内平均使用率达到 67% 时即可实现盈亏平衡。企业首席财务官在获得预算可预测性的同时，还能避免被云计算供应商锁定。

8.GB300 与 GB200：了解 Blackwell Ultra

GB300 NVL72（Blackwell Ultra）是最初的 GB200 NVL72 的重大演进。主要改进包括：人工智能计算性能提高了 1.5 倍，每个 GPU 拥有 288 GB HBM3e 内存（相对于 192 GB），以及更加关注人工智能推理应用的测试时间扩展推理。

与 Hopper 相比，新架构将每用户每秒的代币数提高了 10 倍，每兆瓦的 TPS 提高了 5 倍，从而将人工智能工厂的潜在产出提高了 50 倍。这使得 GB300 NVL72 专门针对新兴的人工智能推理时代进行了优化，DeepSeek R1 等模型在推理过程中需要更多的计算量来提高准确性。

上市时间表：预计合作伙伴将在 2025 年下半年提供 GB300 NVL72 系统，而 GB200 NVL72 目前已经上市。

9.财富 500 强为何选择专业化部署合作伙伴

领先的部署专家已在 850 多个数据中心安装了 10 万多个 GPU，并通过广泛的现场工程团队维持 4 小时的全球服务级别协议 (SLA)。自 2022 年以来，业界已投入使用数千英里的光纤和数兆瓦的专用人工智能基础设施。

最近的部署指标：

平均网站准备时间：6.2 周（低于行业平均 11 周的时间）
首次通过成功率：通电测试成功率为 97.3
部署后问题：前 90 天的组件故障率为 0.08

原始设备制造商交付硬件；专业合作伙伴将硬件转化为生产基础设施。在规划阶段，让经验丰富的部署团队参与进来，通过使用预制电源线束、预设冷却回路和工厂端接光纤束，可将时间缩短 45%。

临别赠言

GB300 NVL72 机柜实现了从 "机架式服务器 "到 "机柜式数据中心 "的根本性转变。物理学是无情的：120 千瓦的计算密度要求每个电源连接、冷却回路和光纤端接都要精确无误。在第一天就掌握工程基础知识，Blackwell Ultra 将在未来数年内提供变革性的人工智能推理性能。

准备好讨论我们无法用 2000 字写完的技术细节了吗？我们的部署工程师非常乐于与您进行这样的对话--请在以下网址安排一次技术深谈 solutions@introl.com.

参考资料

戴尔科技2024."戴尔人工智能工厂利用先进冷却、高密度计算和人工智能存储创新技术改造数据中心"。新闻稿，10 月 15 日。戴尔科技新闻室

引言2025."GPU 基础设施部署和全球现场工程师"。6月23日访问。 introl.com

Lambda.2025."AI云定价--英伟达B200集群"。6月23日访问。 Lambda 实验室定价

英伟达™（NVIDIA®）。2025."GB300 NVL72 产品页面"。6 月 23 日访问。英伟达数据中心

英伟达™（NVIDIA®）。2025."NVIDIA Blackwell Ultra AI Factory 平台为人工智能推理时代铺平道路"。新闻稿，3 月 18 日。英伟达新闻

超微公司。2025."NVIDIA GB300 NVL72 超级集群数据表"。二月。超微数据表

注册。2024.Mann, Tobias."一个机架，120 千瓦的计算能力：近距离观察英伟达™（NVIDIA®）的 DGX GB200 NVL72 猛兽"。3月21日注册

英伟达™（NVIDIA®）GB300 NVL72（Blackwell Ultra）为何如此重要 🤔

1.解剖机架

2.喂饱野兽：电力输送

3.冷却手册：热能工程现实

4.网络结构：管理 NVLink 5.0 和增强的连接性

5.经过实地测试的部署清单

6.生产负荷下的性能鉴定

7.云计算与本地部署总体拥有成本分析

8.GB300 与 GB200：了解 Blackwell Ultra

9.财富 500 强为何选择专业化部署合作伙伴

临别赠言

参考资料

准备好开始 GPU 部署项目了吗？

英伟达™（NVIDIA®）GB300 NVL72（Blackwell Ultra）为何如此重要 🤔

1.解剖机架

2.喂饱野兽：电力输送

3.冷却手册：热能工程现实

4.网络结构：管理 NVLink 5.0 和增强的连接性

5.经过实地测试的部署清单

6.生产负荷下的性能鉴定

7.云计算与本地部署总体拥有成本分析

8.GB300 与 GB200：了解 Blackwell Ultra

9.财富 500 强为何选择专业化部署合作伙伴

临别赠言

参考资料

结构化布线与水冷导管：为 100 千瓦以上机架进行设计

可扩展的现场人员配置：高速启动关键基础设施

准备好开始 GPU 部署项目了吗？