人工智能时代的美国数据中心:GPU 基础设施如何改变格局

搭建舞台:人工智能热潮遇上数据中心

闭上眼睛,想象一下一望无际的嗡嗡作响的服务器,它们随时准备以比 "算法精灵 "更快的速度计算机器学习模型。这就是美国的现代数据中心--创新的温床(多亏了所有 GPU 的热量),它正在演变成我们这个科技日益发达的世界的 "人工智能工厂"。

人工智能(AI)应用的激增引发了数据中心建设和 GPU 部署的军备竞赛。由此引发的基础设施革命不仅仅是连接更多服务器,而是要利用强大的计算能力来训练和运行当今最先进的人工智能模型,从预测股票价格的神经网络到重写内容创建规则的生成文本模型。

根据麦肯锡公司和 Dell'Oro 集团的研究汇总,人工智能的力量和基于 GPU 的加速已经促使全国主要中心在新设施和扩建方面进行了创纪录的投资。5300 多个美国数据中心约占全球市场的 40%,而这一比例还在不断攀升。

为什么 GPU 是全场的主角?

实事求是地说:基于 CPU 的系统仍然是强大的动力,但 GPU 已成为尖端人工智能基础设施的心脏。它们擅长并行处理,这意味着它们可以同时处理数百万(或数十亿)次计算,这对训练高级机器学习模型至关重要。根据 Dell'Oro Group 的预测,仅在 2024 年第二季度,GPU 和加速器的销售额就将达到 540 亿美元,这也就不足为奇了。

英伟达™(NVIDIA®)的Blackwell架构是Hopper的继任者,可为人工智能工作负载提供前所未有的性能。 GB200 系统已从发布阶段进入实际部署阶段,截至 2025 年 5 月,甲骨文云计算基础架构已成为首批在其数据中心部署数千台英伟达™(NVIDIA®)Blackwell GPU 的企业之一。这些液冷GB200 NVL72机架现在可在英伟达DGX云和甲骨文云基础设施上供客户使用,用于开发和运行下一代推理模型和人工智能代理。其他云提供商也在迅速跟进,AWS、谷歌云、微软Azure和CoreWeave等GPU云提供商都计划在未来几个月内推出由Blackwell驱动的基础设施。

英伟达™(NVIDIA®)在3月份的GTC 2025大会上发布了Blackwell Ultra架构,进一步扩展了其人工智能产品。Blackwell Ultra增强了最初的Blackwell设计,与标准Blackwell GPU相比,注意力层加速能力提高了一倍,人工智能计算FLOPS提高了1.5倍。该平台的下一代进化版专为 "人工智能推理时代 "而设计,具有更强的安全功能,包括首款具有可信I/O虚拟化功能的GPU。展望未来,英伟达™(NVIDIA®)还公布了下一代Rubin架构路线图,该架构推出后将专注于人工智能推理和高性能计算。

然而,要释放这种能量,数据中心需要专门的设计。这包括

  • 高密度冷却:当每个机架的功耗达到 130 千瓦时,传统的空气冷却技术就开始摇旗呐喊了。液体冷却技术的出现,使这些 GPU 集群远离了崩溃的边缘:

    • 单相直接芯片冷却:目前的市场领导者,通过直接连接到 GPU 和 CPU 的冷板循环冷却液体,吸热效率是空气的 3,000 倍。由于功耗超过 2,700 瓦,NVIDIA 强制要求所有 Blackwell B200 GPU 和系统采用液冷技术。GB200 NVL72系统采用这种直接到芯片的冷却方式,其能效比传统冷却系统高25倍,据说水效比传统冷却系统高300倍。冷却液以每秒两升的速度进入温度为 25°C 的机架,流出时温度升高 20 度,从而消除了相变造成的水损失。

    • 浸入式冷却:单相和双相系统可将服务器完全浸没在介电流体中,消除热点,实现更高密度,每个机架的功率接近 250 千瓦。

  • 强大的电力基础设施:根据能源部和美国电力研究所(EPRI)的预测,到 2028-2030 年,数据中心的电力需求将达到美国电力总消耗量的 6.7% 到 12%,因此运营商们都在努力确保可靠的能源来源,而且最好是绿色能源。这一预测表明,与 2023 年数据中心消耗的约 4.4% 的美国电力相比,数据中心的电力消耗将大幅增加,而人工智能工作负载是这一加速增长的主要驱动力。

  • 战略性选址规划:人工智能培训不像特定的金融或边缘计算任务那样需要超低延迟,因此企业正在爱荷华州或怀俄明州等地战略性地建设以 GPU 为中心的新数据中心,因为那里的电力更便宜,土地更充裕。GB200 NVL72 系统现在支持 120-140kW 的机架功率密度,这使得在可靠电源附近进行战略性选址变得更加重要。

增长、投资和竞争

从弗吉尼亚州北部的 "数据中心巷 "到达拉斯-沃斯堡和硅谷,云计算巨头(亚马逊、微软、谷歌、Meta)和人工智能驱动的新公司正在掀起一股巨大的扩张浪潮。分析师预计,到 2030 年代初,美国数据中心市场规模将翻一番以上,达到 3500 亿美元到 6500 亿美元以上。

这一增长的核心是迫切需要跟上人工智能转型的步伐:

  • 由 OpenAI、甲骨文(Oracle)和软银(SoftBank)支持的 "星际之门计划"(Project Stargate)雄心勃勃,耗资 5000 亿美元,将在全美建立 20 个大型人工智能数据中心,在满足前所未有的计算需求的同时,创造主权人工智能能力。

  • 领先的人工智能实验室正在迅速扩展其基础设施:

    • OpenAI正与微软公司合作,在威斯康星州芒特普莱森特(Mount Pleasant)建立下一代集群。该集群将容纳约 100,000 台英伟达 B200 AI 加速器。

    • Anthropic已获得亚马逊和谷歌数十亿美元的承诺,以满足克劳德的培训和推理需求。

    • xAI(埃隆-马斯克的人工智能企业)最近在田纳西州孟菲斯市启动了一个新的人工智能数据中心。该中心使用模块化天然气涡轮机发电,同时建立其 Grok 模型。

  • 微软和亚马逊等超大规模企业正在开发价值数十亿美元的数据中心项目,竞相满足不断发展的人工智能工作负载。

  • 主机代管提供商正在扩大容量,往往在施工尘埃落定之前就预租了 70% 甚至更多的新设施。

  • 高需求地区的电力紧张(看看你,北弗吉尼亚州)意味着精明的企业会在能源工厂甚至核设施附近建厂,为 GPU 提供不间断的电力供应。

  • 英伟达™(NVIDIA®)还通过在2025年消费电子展上发布的个人人工智能超级计算机Project DIGITS实现了格雷斯-布莱克韦尔计算的平民化。该系统为个人人工智能研究人员和开发人员带来了 GB10 格雷斯-布莱克韦尔超级芯片,在台式机外形尺寸下以 FP4 精度提供高达 1 petaflop 的人工智能性能。Project DIGITS允许开发人员使用相同的Grace Blackwell架构和英伟达™(NVIDIA®)AI Enterprise软件平台,在将模型扩展部署到云或数据中心基础设施之前在本地进行原型设计和测试。

即将面临的挑战

可持续性:随着数据中心的电力需求激增,运营商在能源足迹方面面临着越来越严格的审查。更多的运营商正在签订太阳能、风能和其他可再生能源的长期协议。然而,在减少碳排放的同时将发电量增加一倍或两倍是一项艰巨的任务--即使对于一个喜欢挑战的行业来说也是如此。

基础设施瓶颈:一些公用事业公司在提高电网容量之前,暂停了某些热点地区的新连接。与此同时,中西部地区的新数据中心建设必须应对电力传输的限制。

成本上升:需求巨大,供应紧张,价格不断攀升。250-500 千瓦空间的要价同比上涨了 12.6%(根据世邦魏理仕的数据),凸显了市场的竞争力。

尽管有这些颠簸,但总体基调依然乐观:人工智能、大数据和云计算将继续推动性能和创新的飞跃。数据中心曾经是默默无闻的互联网英雄,如今正逐渐成为人们关注的焦点。

Introl 的作用:正确使用高性能计算(HPC)

如果这些 GPU 扩展和数据中心改造是一部动作片,那么 Introl 将是最后一幕中乘坐直升机抵达的特种部队--在压力下保持冷静,时刻准备执行任务。

您是否希望增强 GPU 基础设施?Introl 的 GPU 基础设施部署涵盖从大规模集群安装到高级冷却策略的方方面面--让您的新人工智能工厂保持稳定高效。需要无缝迁移数据中心?我们的方法可确保零停机时间,将最佳实践融入其中,让您的服务器顺利迁移。

您有紧急人员需求吗?Introl 的 人员配置解决方案提供由 800 多名专业技术人员组成的全国性网络。您是否担心结构化布线?了解 Introl 的结构化布线和封闭服务,让您的数据流保持畅通,避免缠结和绊倒危险。

我们的使命?以任何规模在您的时间轴上加速人工智能和高性能计算的部署--无论您是使用 100,000 个 GPU 还是仅使用 10 个 GPU。

未来:人工智能工厂与可持续创新

下一代数据中心正在蜕变为 "人工智能工厂",实现从实时自然语言处理到高级科学模拟的一切功能,这已不是什么秘密。以下是几个主要方向:

  • 超越 GPU:虽然英伟达™(NVIDIA®)占据主导地位,但定制的人工智能加速器正在成为潜在的替代方案。Cerebras Systems 等公司凭借其晶圆级引擎和 Lightmatter 等初创公司的新兴光子处理器,正在突破可能的极限,为特定的人工智能工作负载提供更高的效率。

  • 更多液体冷却:随着 GPU 机架密度超过 100 kW,液体冷却已成为高性能计算环境的必备条件。

  • 人工智能辅助管理:具有讽刺意味的是,运行人工智能的数据中心也利用人工智能进行预测性维护和能源优化,从而提高效率。

  • 微电网和可再生能源:期待与可再生能源农场、当地发电厂和现场发电厂建立更多合作关系,以提供可靠的后备电力。

即使面临电力紧张和可持续发展的压力,美国数据中心的发展势头仍将是全球数字经济跳动的心脏。高性能计算、超融合和人工智能驱动的服务都在高速发展,而我们才刚刚热身。

总结:从 ENIAC 到人工智能涅槃

1945 年,当容纳 ENIAC 的第一个数据中心启用时,很少有人能想到它将成为现代人工智能工厂的蓝图。如今,数据中心正在缩小抽象计算理论与改变现实世界的应用之间的差距。

无论是为人工智能初创企业提供超级动力,还是扩展企业高性能计算环境,现在都是利用以 GPU 为中心的基础设施的时候了。如果您正在为人工智能数据中心的发展寻找一个值得信赖的合作伙伴--一个能够帮助您设计、部署和管理系统、推动技术进步的合作伙伴,Introl 就是您的理想选择。

准备好讨论具体细节了吗? 与 IntrolIntrol,让我们一起为人工智能赋能的未来规划航向。

(毕竟,我们才刚刚迈入这个新时代--想象一下到 2030 年及以后我们会取得怎样的成就吧)。

上一页
上一页

人工智能时代的欧洲、中东和非洲地区数据中心:GPU 基础设施正在推动整个大陆的复兴

下一页
下一页

变形金刚革命:关注就是一切 "如何重塑现代人工智能