英伟达™(NVIDIA®)Vera Rubin 利用 600 千瓦机架和百万代币级内存打破 GPU 传统模式

英伟达™(NVIDIA®)首席执行官黄仁勋(Jensen Huang)在 GTC 2025 大会上抛出了一枚重磅炸弹,让基础设施团队争先恐后地拿出计算器:到 2027 年,Vera Rubin 平台将把数据中心机架的功率推高到 600 千瓦¹。这一宣布标志着数据中心的运行方式发生了根本性转变,迫使人们重新全面思考几十年来基本未变的电力输送、冷却系统和物理基础设施。

Vera Rubin 平台是英伟达迄今为止最雄心勃勃的一次飞跃。这种多组件系统结合了定制的 Vera CPU、下一代 Rubin GPU 和专门为百万级人工智能工作负载设计的 Rubin CPX(上下文处理扩展)加速器。² 与 GPU 几代典型的渐进式改进不同,Vera Rubin NVL144 CPX 变体的人工智能性能是当前 Blackwell GB300 系统的 7.5 倍,同时从根本上改变了 GPU 的封装、冷却和部署方式。

"我们是历史上第一家发布了四代产品的技术公司,"Huang 向 Data Center Dynamics 解释道,并阐述了英伟达到 2028 年的路线图。 ⁴这种透明度有一个关键目的:为基础设施提供商、数据中心运营商和 Introl 等公司提供所需的准备时间,以迎接人工智能基础设施的全面重塑。

英伟达™(NVIDIA®)Vera Rubin NVL144 平台规格显示 FP4 推理性能为 3.6 exaflops,比 GB300 NVL72 提高 3.3 倍,将于 2026 年下半年面世。

架构革命始于定制芯片。

英伟达™(NVIDIA®)从布莱克韦尔到费曼的完整路线图,展示了从 Oberon 到 Kyber 机架架构的演变,支持高达 600 千瓦的功耗。

Vera CPU 标志着 NVIDIA 放弃了现成的 ARM 设计,采用了 88 个具有同步多线程功能的定制 ARM 内核,从而实现了 176 个逻辑处理器。⁵ NVIDIA 将这些定制内核称为 "奥林巴斯",该设计的性能是当前 Blackwell 系统中使用的 Grace CPU 的两倍。 ⁶ 每个 Vera CPU 通过一个 1.8 TB/s 的 NVLink C2C 接口连接到 Rubin GPU,实现了计算元素之间前所未有的带宽。

标准 Rubin GPU 在每个封装中配备了 288GB HBM4 显存,容量与 Blackwell Ultra B300 相同,但显存带宽从 8 TB/s 提高到 13 TB/s。⁸ 每个 Rubin 封装包含两个视网膜限制的 GPU 芯片,不过英伟达改变了计算方法--Blackwell 称为一个 GPU(两个芯片),Rubin 称为两个 GPU。

鲁宾 CPX 是最具创新性的元素,它是专为大规模上下文处理而设计的加速器。这种单片设计可提供 30 petaFLOPs 的 NVFP4 计算能力和 128GB 的高性价比 GDDR7 内存,专门针对变压器模型中的注意力机制进行了优化¹⁰。与 GB300 NVL72 系统相比,CPX 的注意力处理能力提高了 3 倍,使人工智能模型能够处理百万oken 上下文(相当于一小时的视频或整个代码库)而不会降低性能¹⁰。

部署需要对基础设施进行全面改造。

标准的 Vera Rubin NVL144 系统计划于 2026 年下半年面世,它采用熟悉的 Oberon 机架架构,与现有的 GB200/GB300 基础设施保持兼容。

Vera Rubin NVL144 CPX 变体进一步提升了性能,它集成了 144 个 Rubin CPX GPU 以及 144 个标准 Rubin GPU 和 36 个 Vera CPU,可在单个机架中提供 8 个 exaFLOPs 的 NVFP4 计算能力(比 GB300 NVL72 提高了 7.5 倍)以及 100TB 高速内存和 1.7 PB/s 内存带宽。

2027 年,Rubin Ultra 和 Kyber 机架架构将改变一切。¹⁵Kyber设计将计算刀片旋转90度成垂直方向,在机架上安装了4个各由18个刀片组成的吊舱。

当前的英伟达™(NVIDIA®)Blackwell 系统配备 72 个 GPU,可提供 1.1 exaflops 性能

未来的英伟达鲁宾系统可在单个 600 千瓦机架中扩展至 576 个 GPU 和 15 个 exaflops

¹⁷ CoolIT Systems 和 Accelsius 已经展示了能够处理进水温度为 40°C 的 250kW 机架的冷却解决方案,验证了通向 600kW 部署的技术路线。

电源架构的演进实现了兆瓦级计算。

NVIDIA 向 800 VDC 配电系统的过渡解决了当前基础设施的基本物理限制。传统的 54V 机架内配电方式需要为 Kyber 级系统配备 64U 的电源架,没有为实际计算留出空间。 ²⁰ 800V 架构消除了机架级 AC/DC 转换,将端到端效率提高了 5%,并将维护成本降低了 70%。

新的电力基础设施使用相同的主干网,可支持从 100kW 到超过 1MW 的机架,并为未来几代产品提供所需的可扩展性 ²² 部署 Vera Rubin 的公司必须计划进行大规模的电力升级--一个 NVL576 机架的耗电量相当于 400 个普通家庭的耗电量。计划在 2027 年部署的数据中心现在就应开始进行基础设施升级,包括公用事业规模的电力连接和潜在的现场发电。

对于 Introl 这样的基础设施专家来说,这种转变创造了前所未有的机遇。该公司在超大规模部署 GPU 基础设施、管理全球 100,000 多台 GPU 方面的专业技术,以及其在亚太地区的广泛业务,使其处于有利地位。 其广泛的亚太地区业务使其能够企业需要的合作伙伴不仅要了解 GPU 的部署,还要了解 600kW 系统所需的复杂的电源、冷却和网络。

性能提升证明基础设施投资是合理的。

Vera Rubin NVL144 CPX变体展示了该平台的潜力,它拥有8个exaFLOPS的NVFP4计算能力,以及100TB的高速内存和1.7 PB/s的内存带宽,所有这些都集中在一个机架中。

早期采用者包括德国莱布尼茨超级计算中心,该中心正在将蓝狮超级计算机与 Vera Rubin 结合使用,以实现比其现有系统高 30 倍的计算能力。

Rubin CPX 对上下文处理的专业化解决了当前人工智能系统的一个关键瓶颈。Cursor、Runway 和 Magic 等公司已经在探索 CPX 如何加速编码助手和视频生成应用,这些应用需要同时处理数百万个令牌。

基础设施挑战创造市场机遇。

向 600 千瓦机架的飞跃暴露了当前数据中心能力的严峻现实。大多数设施只能使用 40 千瓦的机架;即使是最先进的人工智能数据中心也很少超过 120 千瓦。这一转变不仅需要新的冷却系统,还需要对设施进行全面的重新设计,从能够承受巨大重量负荷的混凝土地板,到适合工业运行的变电站。

问题是,有多少现有数据中心设施能够支持如此密集的配置,"The Register 指出,"Kyber 机架的定制性质意味着这些设施需要专用的基础设施。

该时间表为行业提供了喘息空间,但也要求立即采取行动。为 2027 年及以后规划人工智能基础设施的组织必须现在就做出有关设施位置、电力采购和冷却架构的决策。三年的准备时间反映了部署基础设施的复杂性,这些基础设施在物理上不可能实现的边缘运行。

超越薇拉-鲁宾之路

英伟达的路线图从 Vera Rubin 扩展到 2028 年的费曼架构,很可能会向 1 兆瓦机架推进。³¹ Vertiv 首席执行官 Giordano Albertazzi 认为,实现兆瓦级密度需要 "液体冷却的进一步革命,以及电源方面的范式变革"³² 这一轨迹似乎是不可避免的--人工智能工作负载要求计算密度呈指数级增长,而经济学则倾向于集中而非分布。

GPU 基础设施从渐进式改进到革命性变革的转变,反映了更广泛的人工智能转型。正如大型语言模型的参数从数十亿级跃升至数万亿级一样,支持这些模型的基础设施也必须实现类似的飞跃。Vera Rubin 代表的不仅仅是更快的 GPU,而是对计算基础设施工作方式的根本性反思。

对于像 Introl 这样专门从事 GPU 基础设施部署的公司来说,Vera Rubin 创造了一代人的机会。从最初的规划到实施和持续优化,企业需要能够驾驭 600kW 部署复杂性的合作伙伴。成功部署 Vera Rubin 的公司将在人工智能能力方面获得显著的竞争优势,而那些犹豫不决的公司则有可能在行业迈向超大规模人工智能的过程中败下阵来。

结论

英伟达™(NVIDIA®)的Vera Rubin平台在提供前所未有的计算能力的同时,也迫使数据中心行业面对基础设施局限性这一令人不安的事实。2027 年的 600kW 机架代表的不仅仅是更高的功耗--它们标志着人工智能基础设施的构建、冷却和运行方式发生了彻底转变。如果企业现在就开始规划,并与了解下一代部署复杂性的经验丰富的基础设施专家合作,将能最好地利用 Vera Rubin 带来的革命性能力。

该平台将于 2026-2027 年到来,这为业界提供了准备时间,但时不我待。今天设计的数据中心必须预见到明天的需求,维拉-鲁宾明确指出,明天需要彻底摆脱传统思维。接受这种转变的公司将推动下一代人工智能的突破,从百万oken 语言模型到实时视频生成系统,这些在今天看来都是科幻小说。

参考资料

¹ The Register。"Nvidia的Vera Rubin CPU和GPU为600千瓦机架指明了方向"。2025 年 3 月 19 日。 https://www.theregister.com/2025/03/19/nvidia_charts_course_for_600kw.

² NVIDIA 新闻中心。"英伟达™(NVIDIA®)发布Rubin CPX:专为海量上下文推理设计的新型GPU"。2025. https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference.

³ 同上。

⁴ 数据中心动态。"GTC:Nvidia 的 Jensen Huang、Ian Buck 和 Charlie Boyle 谈数据中心机架密度的未来"。2025 年 3 月 21 日。 https://www.datacenterdynamics.com/en/analysis/nvidia-gtc-jensen-huang-data-center-rack-density/.

⁵ TechPowerUp。"英伟达发布 Vera CPU 和 Rubin Ultra AI GPU,宣布采用费曼架构"。2025. https://www.techpowerup.com/334334/nvidia-unveils-vera-cpu-and-rubin-ultra-ai-gpu-announces-feynman-architecture.

⁶ CNBC。"Nvidia发布Blackwell Ultra和Vera Rubin人工智能芯片"。2025 年 3 月 18 日。 https://www.cnbc.com/2025/03/18/nvidia-announces-blackwell-ultra-and-vera-rubin-ai-chips-.html.

⁷ 雅虎财经。"Nvidia在GTC 2025上首次推出下一代Vera Rubin超级芯片"。2025 年 3 月 18 日。 https://finance.yahoo.com/news/nvidia-debuts-next-generation-vera-rubin-superchip-at-gtc-2025-184305222.html.

⁸ 下一个平台。"Nvidia绘制2028年GPU系统路线图"。2025 年 6 月 5 日。 https://www.nextplatform.com/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/.

⁹半分析。"NVIDIA GTC 2025 - 为推理而生、Vera Rubin、Kyber、CPO、Dynamo Inference、Jensen Math、Feynman"。2025 年 8 月 4 日。 https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/.

¹⁰ NVIDIA 新闻室。"英伟达™(NVIDIA®)发布Rubin CPX:专为海量上下文推理设计的新型GPU"。

¹¹ 同上。

汤姆的硬件"Nvidia宣布2026年推出Rubin GPU,2027年推出Rubin Ultra,Feynman也将加入路线图"。2025 年 3 月 18 日。 https://www.tomshardware.com/pc-components/gpus/nvidia-announces-rubin-gpus-in-2026-rubin-ultra-in-2027-feynam-after.

¹³ 新堆栈。"英伟达™(NVIDIA®)发布下一代鲁宾和费曼架构,挑战人工智能功率极限。2025 年 4 月 14 日。 https://thenewstack.io/nvidia-unveils-next-gen-rubin-and-feynman-architectures-pushing-ai-power-limits/.

¹⁴ NVIDIA 新闻室。"英伟达™(NVIDIA®)发布Rubin CPX:专为海量上下文推理设计的新型GPU"。

¹⁵ Data Center Dynamics。"Nvidia的Rubin Ultra NVL576机架预计为600千瓦,将于2027年下半年推出"。2025 年 3 月 18 日。 https://www.datacenterdynamics.com/en/news/nvidias-rubin-ultra-nvl576-rack-expected-to-be-600kw-coming-second-half-of-2027/.

¹⁶ Tom's Hardware。"Nvidia展示配备60万瓦Kyber机架和基础设施的Rubin Ultra,将于2027年面世"。2025 年 3 月 19 日。 https://www.tomshardware.com/pc-components/gpus/nvidia-shows-off-rubin-ultra-with-600-000-watt-kyber-racks-and-infrastructure-coming-in-2027.

¹⁷ 数据中心动态。"GTC:Nvidia 的 Jensen Huang、Ian Buck 和 Charlie Boyle 谈数据中心机架密度的未来"。

¹⁸ 数据中心前沿。"CoolIT和Accelsius在机架密度飙升的情况下推进数据中心液体冷却极限"。2025. https://www.datacenterfrontier.com/cooling/article/55281394/coolit-and-accelsius-push-data-center-liquid-cooling-limits-amid-soaring-rack-densities.

¹⁹ 数据中心动态。"GTC:Nvidia 的 Jensen Huang、Ian Buck 和 Charlie Boyle 谈数据中心机架密度的未来"。

²⁰ NVIDIA 技术博客。"英伟达 800 VDC 架构将为下一代人工智能工厂提供动力"。2025 年 5 月 20 日。 https://developer.nvidia.com/blog/nvidia-800-v-hvdc-architecture-will-power-the-next-generation-of-ai-factories/.

²¹ 同上。

²² 同上。

²³ Introl."覆盖区域"。2025 年访问。 https://introl.com/coverage-area.

²⁴ NVIDIA 新闻室。"英伟达™(NVIDIA®)发布Rubin CPX:专为海量上下文推理设计的新型GPU"。

²⁵ 同上。

NVIDIA 博客。"蓝狮超级计算机将在 NVIDIA Vera Rubin 上运行"。2025 年 6 月 10 日。 https://blogs.nvidia.com/blog/blue-lion-vera-rubin/.

²⁷ 同上。

²⁸ NVIDIA 新闻室。"英伟达™(NVIDIA®)发布Rubin CPX:专为海量上下文推理设计的新型GPU"。

²⁹ The Register."Nvidia的Vera Rubin CPU和GPU为600千瓦机架指明了方向"。

全球数据中心枢纽。"Nvidia的600千瓦机架来了(您的基础设施准备好了吗?)2025 年 3 月 23 日。 https://www.globaldatacenterhub.com/p/issue-8-nvidias-600kw-racks-are-hereis.

³¹ TechPowerUp."英伟达发布 Vera CPU 和 Rubin Ultra AI GPU,并宣布采用费曼架构"。

³² 数据中心动态。"GTC:Nvidia 的 Jensen Huang、Ian Buck 和 Charlie Boyle 谈数据中心机架密度的未来"。

上一页
上一页

VVater 和 Introl 宣布合作重新定义人工智能数据中心的未来

下一页
下一页

CoreWeave:人工智能基础设施革命--一家加密货币采矿初创企业如何成为价值 230 亿美元的人工智能中坚力量