每机架 40-250 千瓦:超高密度数据中心解决方案
五年前建造的数据中心每个机架的冷却功率仅为 10 千瓦。如今的人工智能工作负载至少需要 40 千瓦,下一代部署的目标是 250 千瓦。现有基础设施与现代需求之间的差距造成了一个价值 1000 亿美元的问题,而巧妙的工程设计可以解决这个问题。
英伟达公司的 GB200 NVL72 系统在单个机架配置中的功耗为 140kW。
极端密度冷却物理学
传统的高架地板风冷系统在每个机架的功率超过 15 千瓦时就会出现严重故障。热空气再循环会造成热失控,使温度失控。一个 40 千瓦的机架产生的热量相当于 14 台连续运行的家用空间加热器。如果将 8 个这样的机架连成一排,就相当于在 200 平方英尺的空间内管理着一座小型办公楼的热输出。
工程师通过三种基本方法解决极端密度挑战。直接液体冷却将冷却液直接引入热源,通过后门热交换器或冷板,每个机架可去除 30-40 千瓦的功率。浸入式冷却将整个系统浸没在介质中,可处理 50-100kW 的密度,同时无需风扇。混合方法结合了多种技术,在为 GPU 使用液体冷却的同时,也为密度较低的组件保持空气冷却。
在数学上,液体冷却具有决定性的优势。水的传热系数是空气的 3,500 倍⁴,一加仑水的散热量相当于 3,000 立方英尺空气的散热量。液体冷却系统的功率使用效率 (PUE) 为 1.02-1.10,而传统空气冷却系统的 PUE 为 1.4-1.8。
配电挑战随着规模的扩大而成倍增加。
为单个机架提供 250 千瓦的电力需要从根本上重新设计电力基础设施。传统的 208V 电路需要 1200 安培的连接,电缆比人的手臂还粗。现代设施采用 415V 或 480V 配电来降低电流要求,但即使是这些系统也需要大量的铜缆投资。一个 250 千瓦的机架所需的电力基础设施相当于 50 个普通家庭。
Introl 的现场工程师经常遇到试图将 5kW 设计改造为 40kW 负载的设备。断路器不断跳闸。变压器过热。配电装置在设计时从未考虑过的负载下发生故障。企业经常会发现,他们大楼的总电力容量无法支持几个高密度机架,这就迫使他们花费 18-24 个月的时间进行昂贵的电力升级。
巧妙的电源设计始于尽可能采用直流配电。直流电消除了传统交流电系统中浪费 10-15% 电力的转换损耗。⁷ Facebook 的 "开放计算项目 "证明,直流配电可将总功耗降低 20%,同时提高可靠性。
机械基础设施需要彻底改造。
标准数据中心地板每平方英尺承重 150-250 磅。一个满载 250 千瓦的机架重达 8000 多磅,集中在 10 平方英尺的面积上。地震带面临更多挑战,需要专门的隔离系统来防止设备在地震中受损。
液体冷却带来了新的机械复杂性。冷却剂分配需要泵、热交换器和过滤系统,而这些都是传统设施所缺乏的。1 兆瓦的液冷设备每分钟需要 400-500 加仑的冷却剂流量。¹⁰ 泄漏检测变得至关重要--一次冷却剂泄漏就可能在几秒钟内毁掉价值数百万美元的设备。Introl 采用了三重冗余泄漏检测技术,自动切断阀可在检测到湿气后 100 毫秒内启动。
仅管道基础设施就需要大量投资。¹¹一排液冷机架需要 500-1000 英尺的供回水管道。每个机架还需要 20,000 至 30,000 美元的歧管、阀门和连接点。机械基础设施的成本往往高于其所支持的计算设备。
网络架构适应密度要求。
极高密度计算对网络带宽的要求前所未有。每颗英伟达™(NVIDIA®)H100 GPU需要400Gbps的网络连接才能达到最佳性能。¹²一台8GPU服务器需要3.2Tbps的总带宽,超过了许多数据中心五年前的带宽消耗。传统的机架顶部交换架构很难满足这些要求。
密集部署推动了分解网络架构的采用。无论流量模式如何,脊叶拓扑结构都能提供一致的延迟和带宽。硅光子技术实现了铜缆无法达到的 800 Gbps 和 1.6 Tbps 连接。¹³ Introl 的部署越来越多地使用直连铜缆(DAC)进行 3 米以下的连接,并使用有源光缆(AOC)进行更长的连接,从而优化了成本和功耗。
在密度极高的情况下,线缆管理变得异常复杂。一个 40GPU 机架需要 200 多条电缆,用于供电、联网和管理。每根线缆都会通过电阻产生热量。线缆管理不善会限制气流,产生热点,引发热节流。Introl 的工程师将 20-30% 的安装时间用于线缆管理,利用专门的布线系统保持适当的弯曲半径,同时最大限度地提高冷却效率。
地理限制决定了部署战略。
¹⁴ 土地稀缺推动了垂直扩展和每平方英尺的最大计算能力。政府通过减税和加快审批速度等激励措施支持液体冷却的采用。Introl 的 亚太地区使我们处于转型的中心,拥有了解地区要求和法规的本地工程师。
北欧市场利用寒冷气候获得免费冷却优势。斯德哥尔摩的数据中心利用波罗的海冷水进行排热,实现了全年低于 1.10 的 PUE ¹⁵。挪威的设施将水力发电与自然冷却相结合,打造了世界上最高效的人工智能基础设施。Introl 管理的部署利用了这些地理优势,同时保持了全球连接标准。
水的可用性日益决定着部署地点。液体冷却系统每千瓦冷却能力每分钟消耗 0.1-0.2 加仑。¹⁶ 一个 10 兆瓦的设备每分钟需要 1000-2000 加仑的水,足够每五个小时注满一个奥林匹克游泳池。沙漠地区面临着空气冷却效率低下和水资源匮乏的两难选择。现在,有远见的企业在选择数据中心地点时,会将水权与电力供应一并评估。
经济模式推动采用决策。
极致密度基础设施的商业案例取决于工作负载的特性。连续运行数周的人工智能培训工作负载证明任何提高效率的投资都是合理的。在为期一个月的训练运行中,性能提高 1%,就能节省 7.2 个小时的计算时间。以 H100 实例每 GPU 小时 40 美元的价格计算,看似微小的优化却能带来巨大的回报。
资本支出(CapEx)比较倾向于传统基础设施,但运营支出(OpEx)则不同。与空气冷却相比,液体冷却可降低 30-40% 的功耗。¹⁸ 部署 1 兆瓦的设备每年仅电费就可节省 40-5 万美元。
总体拥有成本(TCO)模型必须考虑机会成本。无法部署高密度基础设施的企业将失去竞争优势。²² 每个机架 40kW 和 100kW 之间的差异决定了模型的训练时间是几周还是几个月。市场领导地位越来越取决于传统指标无法捕捉的基础设施能力。
业务的复杂性需要新的专业知识。
管理高密度基础设施需要具备传统数据中心团队所缺乏的技能。液体冷却系统需要 IT 部门很少具备的管道专业知识。技术人员必须了解流体动力学、压差和冷却剂的化学成分。一个参数配置错误就可能导致灾难性故障--压力过大会导致连接处爆裂,而压力过小则会引起泵气蚀。
Introl 通过为我们的 550 名现场工程师提供专门的培训计划来弥补专业知识方面的差距。培训团队学习诊断冷却剂流动问题、对冷却分配装置进行预防性维护以及应对泄漏事件。认证计划涵盖不同冷却技术的制造商特定要求。区域团队通过我们的全球知识库分享最佳实践,确保所有 257 个地点的服务质量保持一致。
监控系统产生的数据是传统基础设施的 10 到 100 倍。每个机架都会产生数千个遥测点,涵盖温度、压力、流速、功耗和组件健康状况。机器学习算法可识别模式,在故障发生前预测故障。Introl 的运营团队利用预测分析在计划停机时间窗口内安排维护,使关键人工智能工作负载的可用性达到 99.999%。
未来的技术将进一步突破界限。
下一代 GPU 将需要更加极端的基础设施。英伟达™(NVIDIA®)的路线图显示,到 2027 年,每个 GPU 的功耗将达到 1,500-2,000W ²³ AMD 的 MI400 系列的目标功耗与之类似。
两相浸入式冷却是极端密度的终极解决方案。电介质流体在精确控制的温度下沸腾,提供等温冷却,使组件保持在最佳工作点。从液体到蒸汽的相变可吸收大量热量,每个机架最高可达 250 千瓦。
小型模块化反应堆(SMR)可消除电网电力限制。超大规模企业正在探索将核电与数据中心共用,以可预测的成本提供无碳电力。一个 300 兆瓦的 SMR 可为 3,000 个 100 千瓦的机架供电,足够 24,000 个 GPU 使用。
前进的道路要求我们立即采取行动。
今天,建设人工智能基础设施的机构面临着决定未来十年竞争地位的关键决策。改造现有设施,使其达到 40kW 的密度,每个机架的成本在 50,000 美元到 100,000 美元之间。
成功的过渡始于全面的评估。Introl 的工程团队会评估现有的电力容量、冷却基础设施、结构支持和网络架构,以确保最佳性能。我们找出限制密度提高的瓶颈,并制定分阶段升级计划,最大限度地减少中断。我们的业务遍布全球,能够在客户需要高密度解决方案的地方快速部署专用设备和专业知识。
人工智能基础设施的赢家将是那些拥抱极端密度而不是与之对抗的人。每延迟一个月,就意味着竞争对手要更快地训练模型、更快地部署功能、更快地占领市场。问题不在于是否采用高密度基础设施,而在于企业如何快速改造其设施,以支持人工智能时代决定竞争优势的计算需求。
参考资料
英伟达™(NVIDIA®)。"NVIDIA DGX GB200 NVL72 液冷机架系统"。英伟达公司,2024 年。 https://www.nvidia.com/en-us/data-center/dgx-gb200/
Microsoft Azure。"面向人工智能工作负载的基础架构创新"。微软公司,2024 年。 https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/
谷歌云。"TPU v5p:用于大型语言模型的云 TPU Pods"。谷歌有限责任公司,2024 年。 https://cloud.google.com/tpu/docs/v5p
ASHRAE."数据中心应用中水与空气的热特性》。ASHRAE 技术委员会 9.9,2024 年。
美国正常运行时间研究所。"2024 年全球数据中心调查:PUE 趋势"。正常运行时间研究所,2024 年。 https://uptimeinstitute.com/resources/research/annual-survey-2024
劳伦斯伯克利国家实验室。"数据中心能效成本效益分析"。劳伦斯伯克利国家实验室,2023 年。 https://datacenters.lbl.gov/resources
开放计算项目。"直流电源分配效益分析"。OCP 基金会,2023 年。 https://www.opencompute.org/projects/dc-power
---."Facebook普林维尔数据中心效率报告"。OCP 基金会,2023 年。 https://www.opencompute.org/datacenter/prineville
施耐德电气。"高密度机架重量和地面装载指南"。施耐德电气,2024 年。 https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/
Vertiv."人工智能基础设施液体冷却设计指南"。Vertiv,2024 年。 https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/
RSMeans."2024年机械成本数据:管道系统"。高登 RSMeans 数据,2024 年。
英伟达™(NVIDIA®)。"NVIDIA H100 Tensor Core GPU 架构白皮书"。英伟达公司,2023 年。 https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet
英特尔"硅光子技术:数据中心连接的突破"。英特尔公司,2024 年。 https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html
资讯通信媒体发展管理局。"2024年新加坡数据中心路线图"。新加坡 IMDA,2024 年。 https://www.imda.gov.sg/resources/data-centre-roadmap
DigiPlex."斯德哥尔摩数据中心:可持续冷却创新"。DigiPlex,2023 年。 https://www.digiplex.com/stockholm-datacenter
ASHRAE."数据中心液体冷却指南,第 2 版"。ASHRAE 技术委员会 9.9,2024 年。
亚马逊网络服务。"EC2 P5 实例定价"。AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/
戴尔技术公司。"直接液体冷却投资回报率分析"。戴尔科技,2024 年。 https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm
美国能源信息管理局。"各州商业用电价格"。EIA, 2024 年。 https://www.eia.gov/electricity/monthly/epm_table_grapher.php
浸没"浸没冷却对硬件寿命的影响研究"。Submer,2023 年。 https://submer.com/resources/hardware-longevity-study/
JLL."数据中心建设成本指南 2024"。仲量联行,2024 年。 https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs
OpenAI."GPT-4培训基础设施要求"。OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure
英伟达™(NVIDIA®)。"多年 GPU 路线图更新"。英伟达 GTC 2024 主题演讲,2024 年 3 月。
AMD."本能 MI400 系列预发布"。AMD 投资者日,2024 年 6 月。
Cerebras."CS-3晶圆级发动机规格"。Cerebras Systems,2024 年。 https://www.cerebras.net/product-chip/
3M."用于数据中心的消费及工业专用两相浸入式冷却系统"。3M 公司,2024 年。 https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/
美国能源部。"超大规模计算项目:冷却创新"。能源部科学办公室,2024 年。 https://www.exascaleproject.org/cooling-research/
NuScale Power。"数据中心电力的 SMR 应用"。NuScale Power 公司,2024 年。 https://www.nuscalepower.com/applications/data-centers
Gartner。"2024 年数据中心现代化成本分析"。Gartner 公司,2024 年。
---."绿地人工智能数据中心建设经济学"。Gartner公司,2024年。