结构化布线与水冷导管:为 100 千瓦以上机架进行设计

数据中心曾经以兆瓦为单位计算胜算,而如今则以每个机架千瓦为单位进行炫耀。随着人工智能工作负载的激增和机架密度突破 100 千瓦大关,设备团队面临着新的平衡问题:既要保持数据流经纯净的光纤通道,又要迅速排出灼热的热量。这其中的利害关系是显而易见的--设计上的缺陷意味着 GPU 被烤焦,能源账单不断攀升--因此,每条通道、管道和配线架都必须从第一天起就发挥出应有的作用。

100 千瓦阈值

现代 GPU 机架现在每个机架的功耗超过 100 千瓦,而这曾是小型变电站才有的电力负荷。如果忽视其中任何一个系统,优质的白色空间就会变成一个超大的空间加热器,而不是一个高效的数据大厅。

结构化布线:可靠性的基础

结构化布线将铜缆和光纤通路按规范的层次进行排列,具有三个重要优势:

-气流畅通无阻捆绑式主干线可保护地板下和顶部的管道,因此 CRAH 设备可保持稳定的冷空气输送。

-缩短平均修复时间。清晰的端口标签和预端接盒使技术人员能在几分钟内隔离和恢复故障链路。

-信号完整性。高密度盒可确保适当的弯曲半径,防止 400 GbE 光学器件出现微弯曲损耗。

只有在布线不会阻碍关键气流的情况下,运行功率达到或超过 100 千瓦的风冷式大厅才能成功。

水冷导管:直接热提取

空气冷却的效率约为每个机架 50 千瓦以上。通过冷板循环或浸入式水箱进行液体冷却,可从芯片中带走热量,并将其送至外部热交换器。

-热容量更大在相同的温升条件下,按体积计算,水的散热效率是空气的 3,500 倍。

-提高能源效率。在生产部署中,降低冷却剂供应温度可使操作员提高冷却器设定点,并将 PUE 降低 10-20%。

-路径协调。液体软管需要专用的托盘空间,因此设计团队在布局阶段就将其与光缆干线分开。

业绩比较要点

-散热结构化布线可促进畅通无阻的气流,而液冷导管则可直接在组件层面散热。

-维护布线人员快速更换盒式电缆并验证链接;冷却专家安装干式快速断开装置并进行泄漏检查。

- 空间需求:纤维束保持紧凑;冷却剂软管需要更大的直径和更宽的弯曲半径。

-故障影响:单根光纤断裂会造成一个链路的隔离;冷却剂泄漏会导致更广泛的停机。

-技能要求:布线工作需要低压网络技术人员,而液体系统则需要机械和液体处理专家。

大多数超大型设施都将这两种系统融合在一起:结构化布线传输数据,液体导管带走热量。

l'sIntrol 快速部署方法介绍

⁵ 550 名工程师在 72 小时内出动,在 14 天内安装了 1,024 个 H100 节点和 35,000 个光纤补丁,并如期交付了完全仪器化的隔离系统。

核心做法包括

1.专用通道。热通道上方的架空托盘可承载液体软管;地板下的接地筐可承载纤维主干。

2.高密度光纤。二十四股 MPO 主干最大限度地减少了线束宽度,为冷却剂歧管创造了空间。

3.短程分流板。机架式分流板可缩短软管长度,并形成隔离的干断区。

4.跨学科培训。网络技术人员对流体处理程序进行认证,而机械人员则掌握光纤管理公差。

可持续性和未来发展

⁷美国国家可再生能源实验室的工程师捕捉机架级废热,并将其输入区域供热网,将多余的热能转化为社区温暖⁸ASHRAE 即将发布的指南提高了允许的机架入口温度,为更紧密地整合空气和液体冷却方案铺平了道路。

我们的工程师会在试验实验室对每一个新想法进行严格测试,只保留最合适的想法,并将这些成功的想法推广到实际项目中--无论是新建项目还是旧厂房改造项目。结果不言而喻:更紧凑的机架布局、更低的电费以及可持续发展的成功,让现场团队和管理人员都引以为豪。

结论

结构化布线可确保数据完整性和操作灵活性,而液冷导管则可在高密度情况下提供热稳定性。在设计过程中对这两个系统进行编排的设施可实现可预测的性能、优化能源使用并加快部署时间。周密的路径规划、规范的安装和跨职能部门的专业知识将 100 kW 机架从一个雄心勃勃的概念转变为可靠的现实。

参考文献(芝加哥作者-日期)

1. 正常运行时间研究所。2024 年全球数据中心调查:主旨报告 146M。纽约:Uptime Institute,2024 年。

思科系统公司。400 G 数据中心光纤布线最佳实践》。加利福尼亚州圣何塞:思科白皮书,2023 年。

美国采暖、制冷和空调工程师协会。数据处理环境热准则》,第 6 版。亚特兰大:ASHRAE, 2022.

劳伦斯伯克利国家实验室。Measured PUE Savings in Liquid-Cooled AI Facilities.加州伯克利:LBNL, 2024.

5. Introl。"利用 Introl GPU 托管部署加速人工智能的未来"。https://introl.com/.

引言"法兰克福案例研究"。访问日期:2025 年 6 月 26 日。https://introl.com/case-studies/frankfurt。

开放计算项目。高级冷却解决方案:2025 规范草案。加州圣何塞:OCP 基金会,2025 年。

Huang, Wei."液冷人工智能集群中的机架级热回收"。Journal of Sustainable Computing12, no.3 (2024):45-58.

ASHRAE.Thermal Guidelines》《热能指南》)拟议增编 C,公共评审草案,2025 年 1 月。

上一页
上一页

建设数据中心时考虑可持续性:哪些方法可行

下一页
下一页

英伟达™(NVIDIA®)GB300 NVL72(Blackwell Ultra)为何如此重要 🤔