冷却、连接和计算:解读现代 GPU 数据中心

当您与在几毫秒内生成逼真图像或处理海量数据集的快如闪电的人工智能模型交互时,您是否想过在幕后发生了什么?这些神奇的事情都发生在专门的 GPU 数据中心中,而这些数据中心最近得到了极大的发展。下面,我们将探讨这些技术奇迹是如何运行的,研究作为其基础组件的 GPU,并分析行业领导者之间的激烈竞争。

由 GPU 驱动的数据中心的变革

图形处理器(GPU)从最初的视频游戏图形渲染,发展到现在成为先进人工智能计算的基石,取得了长足的进步。与按顺序处理任务的 CPU 不同,GPU 的优势在于并行处理,可同时处理数千个操作。

当这种并行处理能力扩展到大规模数据中心时,就会产生计算能力,从而推动人工智能的训练和推理,并为实时分析、气候建模的科学模拟、制药研究等提供动力。对这些能力的需求催生了业内人士现在所说的 "人工智能工厂"--专为人工智能工作负载而设计的专业设施。

基础设施的演变:超越基础

1.先进的电源和冷却解决方案

高性能 GPU 集群耗电量巨大,需要复杂的配电和尖端冷却技术。

新一代冷却系统

传统的空气冷却已让位于效率更高的液体冷却解决方案。目前,最先进的 GPU 数据中心采用了直接芯片冷却技术,专用冷却剂直接接触组件,大大提高了散热效果。两相浸入式冷却利用了从液体到气体的相变, 已成为当今最高密度 GPU 部署的主要方法。英伟达™(NVIDIA®)和 AMD 的最新一代 GPU 将热设计功率(TDP)推到了前所未有的水平,因此这些系统变得至关重要。

2.联网创新

要将多个 GPU 连接成一个有凝聚力的计算集群,就需要超越标准以太网功能的高速网络。InfiniBand 和高级以太网变体(目前已达到 800 Gbps 或更高)等技术可促进节点之间的海量数据流,这对分布式人工智能训练至关重要。

英伟达™(NVIDIA®)的量子InfiniBand和频谱以太网解决方案可提供超低的延迟和卓越的吞吐量,从而使现代GPU数据中心的网络架构发生了重大发展。数据中心运营商越来越多地集成数据处理器(DPU)和智能网络接口卡(SmartNIC),以卸载 CPU 的网络任务,进一步优化人工智能工作负载的性能。

3.机架结构和密度优化

制造商们的设计已经超越了传统的服务器外形尺寸,创建了模块化架构,将电源、冷却和网络集成到一个整体中。

英伟达™(NVIDIA®)提供其 DGX SuperPOD 架构,而 AMD 则提供同等的解决方案。这两家公司都提供完整的 GPU 数据中心生态系统,企业可以大规模部署。

4.软件协调与人工智能平台

硬件只是拼图的一部分,复杂的软件框架对现代 GPU 数据中心至关重要。

英伟达™(NVIDIA®)的 CUDA 生态系统继续占据主导地位,为人工智能和数据分析提供了广泛的库,不过 AMD 的 ROCm 平台作为一种可行的替代方案也取得了长足的进步。除了这些基础之外,Kubernetes 等容器编排工具也通过 GPU 特定的扩展得到了增强,从而可以高效地管理大规模集群中的人工智能工作负载。

软件堆栈已扩展到包括专门的人工智能平台(如英伟达人工智能企业版),这些平台为大规模开发、部署和管理人工智能应用提供端到端解决方案。这些平台越来越多地集成了 MLOps(机器学习运营)功能,以简化整个人工智能生命周期。

2025 年的竞争格局

英伟达™(NVIDIA®):凭借全新架构继续保持领先地位

英伟达™(NVIDIA®)公司凭借其最新的Blackwell GPU架构继续保持其领先地位,与前代产品相比实现了跨时代的飞跃。根据英伟达公司在 GTC 2025 上发布的消息,首席执行官黄仁勋已经概述了下一代英伟达 Rubin Ultra GPU 架构,该架构预计将于 2026 年下半年推出,基于 Rubin Ultra 构建的系统将于 2027 年面世。 英伟达博客英伟达™(NVIDIA®)公司将继续通过创建一个涵盖硬件、软件和服务的全面生态系统来巩固自己的地位。

2025 财年第二季度(2024 年日历第三季度),英伟达数据中心部门仅一个季度就创造了 263 亿美元的惊人收入,彰显了该行业的爆炸式增长。 统计 随着人工智能技术成为各行各业的基础技术,这种增长推动了专家所称的万亿美元级数据中心建设。

AMD:加速创新,扩大市场份额

AMD 通过其 Instinct MI300 系列加大了在数据中心 GPU 市场的力度,并为未来制定了积极的路线图。AMD 宣布将于 2024 年第四季度推出 MI325X 加速器,随后将于 2025 年推出基于 CDNA 4 架构的 MI350 系列,有望将人工智能推理性能提高到 MI300 系列的 35 倍。 AMD即将推出的 MI400 系列基于下一代 CDNA 架构,预计将于 2026 年面世。

AMD 将通过与台积电等制造商的战略合作扩大产能,积极降低 AI GPU 的稀缺性,从而在 2025 年获得数据中心 GPU 的发展势头。AMD 通过积极的定价策略和显著的性能提升,挑战英伟达的市场主导地位。

英特尔重获竞争优势

凭借高迪人工智能加速器,英特尔继续致力于GPU数据中心市场。英特尔用于人工智能训练和推理的高迪3加速器已于2024年第三季度全面上市,为特定工作负载提供了极具竞争力的性能。 数据中心知识英特尔正在努力确立其在人工智能加速市场的地位,同时利用其在 CPU 领域的强大实力。

英特尔面临重大挑战,但仍在继续投资其 GPU 技术。即将推出的新一代英特尔数据中心 GPU 旨在为某些人工智能工作负载(尤其是推理操作)提供更具成本效益的替代方案。

云提供商和专用人工智能芯片

除了传统的 GPU 制造商外,云计算提供商和人工智能芯片初创公司也纷纷通过定制芯片进入市场。谷歌云(Google Cloud)等公司及其张量处理单元(TPU),以及 Cerebras、Groq 和 Tenstorrent 等初创公司正在开发针对特定细分市场的专用 AI 加速器。 数据中心知识与通用 GPU 相比,这些替代方案提供了不同的性能和效率权衡。

Meta 现在积极在其数据中心部署自己的人工智能推理处理器,直接减少了某些工作负载对外部 GPU 供应商的依赖。

现代 GPU 数据中心的卓越运营

全面监测和预测性维护

现代 GPU 数据中心采用了超越基本指标的复杂监控系统。先进的遥测技术现在可以跟踪每个 GPU 的数千个数据点,包括功耗模式、热梯度、内存错误和计算效率。人工智能驱动的预测性维护系统可以在故障发生前识别出潜在故障,从而减少停机时间并延长硬件寿命。

分布式工作负载协调

从几个 GPU 扩展到数千个 GPU 需要专门的调度框架,如用于高性能计算的 Slurm 或用于容器化人工智能工作负载的 Kubernetes。这些系统已经发展到集成了复杂的算法,可根据数据位置、网络拓扑和功耗情况优化任务分配。

现代工作负载协调器可以实时动态调整资源分配,将计算能力转移到高优先级任务上,同时保持集群的整体效率。它们越来越多地采用人工智能驱动的决策,以实现最佳的布局和调度。

强化安全框架

在共享环境中,GPU 虚拟化允许多个用户共享资源,从而引发了潜在的数据安全问题。下一代安全框架目前采用了硬件级隔离机制、保密计算飞地和加密执行环境,以保护敏感的人工智能工作负载和数据。

零信任安全模式已成为 GPU 数据中心的标准,可对所有访问尝试进行持续验证,并提供全面的审计跟踪,以符合法规要求。

未来景观:2025 年之后

未来的 GPU 数据中心将采用多项有望重塑行业格局的新兴技术:

光子计算集成

英伟达™(NVIDIA®)正致力于将光子学(依靠光而非电信号传输数据的网络技术)紧密集成到加速计算基础设施中。 英伟达博客这种方法有望大幅提高互连带宽,同时降低功耗,而功耗是扩展人工智能系统的关键瓶颈。

混合计算架构

未来的数据中心可能会采用异构计算架构,将传统的 GPU 与针对特定人工智能任务进行优化的专用加速器结合起来。这些系统将动态地把工作负载分配给最合适的计算资源,最大限度地提高性能和能效。

量子加速人工智能

英伟达公司正在投资量子计算,计划在波士顿开设一个专门的研究实验室。首席执行官黄仁勋指出:"这可能将是世界上最先进的加速计算、混合量子计算研究实验室。 英伟达博客这些混合系统将使用量子处理器解决特定问题,而经典 GPU 则处理人工智能工作负载的其他方面。

可持续设计和运行

由于能源消耗仍然是一个关键问题,下一代 GPU 数据中心将采用先进的可持续发展功能,包括可再生能源集成、余热回收系统和人工智能驱动的电源管理,以优化整个设施的能源使用。

结论:创新引擎

2025 年,GPU 数据中心将成为我们人工智能驱动未来的重要基础设施。从自动驾驶汽车到突破性的医学研究,这些计算能力强大的数据中心为各行各业的创新提供了动力。要创建一个以 GPU 为中心的高效环境,需要精心设计电源、冷却、网络和软件协调系统工程。

英伟达™(NVIDIA®)继续保持其领先地位,而AMD、英特尔和专业人工智能芯片制造商的竞争则愈演愈烈。随着这些技术的发展,GPU 数据中心将继续保持领先地位,为从个性化医疗到气候建模等下一波变革性应用提供动力。

对于希望利用强大计算能力的企业来说,现代 GPU 部署代表着基础设施和战略资产,可以在人工智能日益强大的环境中推动竞争优势。

上一页
上一页

了解数据中心迁移:内部消息

下一页
下一页

Introl 团队赢得《数据中心世界》2025 机架和堆栈挑战赛冠军