Isambard-AI 如何在 4 个月内部署 5,448 个 GPU:人工智能基础设施的新蓝图

走进布里斯托尔国家复合材料中心(National Composites Centre)的一个改建仓库,你会发现 150 吨的尖端计算硬件在液冷柜后嗡嗡作响:这是英国最强大的人工智能超级计算机 Isambard-AI。当然,头条新闻都在庆祝它 21 exaflops 的人工智能性能,但他们却忽略了:团队克服了非凡的基础设施挑战,在短短 24 个月内将这个耗资 2.25 亿英镑的项目投入使用。五年前?不可能的时间表。

Isambard-AI公司部署了5448颗英伟达™(NVIDIA®)Grace Hopper超级芯片,揭示了一项重大发展。现在,人工智能计算的成功不仅取决于购买 GPU。您需要掌握现代人工智能基础设施所需的电源、冷却、网络和物流等复杂的生态系统。计划大规模部署 GPU 的企业应该更好地了解这些挑战以及克服这些挑战所需的专业知识。

当 5 兆瓦的功率与 150 吨硅相遇时

Isambard-AI 的规模打破了传统的数据中心思维。它的 12 个 HPE Cray EX4000 机柜中,每个都装有 440 个 GPU,产生的热量密度足以融化传统系统。传统的空气冷却在每个机架超过 20kW 的情况下难以为继。Isambard-AI 呢?每个机柜超过 400kW。解决方案是 100% 直接液体冷却,但实施它需要全新的技能组合。

"我们从 Isambard-AI 等部署中看到的是,数据中心专业技术的构成发生了根本性的转变。过去专注于传统机架和堆栈操作的公司,现在需要了解液体冷却动力学、高密度布线管理以及如何同时调试数千个 GPU 的工程师。布里斯托尔大学的团队与专业部署合作伙伴合作,安装了超过 40,000 个光纤连接。这些布线足以环绕一个小城市。他们还必须保持系统的第五代 NVLink 互连以 1.8TB/s 的速度运行所需的精度。

关键在于:该项目从合同签署到投入使用只用了不到四个月的时间。怎么做到的?专业的 GPU 基础设施部署公司现在可以在 72 小时内调动数百名熟练的技术人员。这些不是传统的 IT 承包商。他们是专业化的团队,知道液体冷却连接的具体扭矩规格,以及在不影响电源系统的情况下将数千个 GPU 联机的最佳顺序。

人工智能为先的基础设施隐藏的复杂性

为人工智能工作负载改造传统超级计算机。Isambard-AI 从一开始就是为人工智能应用而设计的。他们的人工智能优先方法影响了每一个基础设施决策。团队选择了 HPE 的模块化数据中心设计,并在 48 小时内完成了现场组装。他们选择了零碳电源,这与该系统全球排名第四的能效是一致的。

仅网络基础设施就代表了一项巨大的工程协调壮举。该系统的 HPE Slingshot 11 网络通过 64 个端口提供 25.6 Tb/s 的双向带宽,每个节点接收 800 Gbps 的网络注入带宽。安装和验证这一复杂的连接网络需要高性能网络方面的专业知识,这远远超出了典型的企业部署。现代 GPU 基础架构专家需要了解物理层以及不同的互连拓扑如何影响人工智能工作负载性能。

电力输送带来了独特的挑战。与超大规模的数据中心相比,Isambard-AI 的 5 兆瓦总功率可能显得微不足道,但这种电力输送的密度和关键性却提出了独特的要求。每个 Grace Hopper 超级芯片都需要精确的电力输送。由于 5448 个超级芯片协同运行,即使是微小的波动也可能导致系统不稳定。部署团队采用了先进的电源管理系统,该系统具有实时监控功能,可在几毫秒内检测到异常情况并做出响应。

从欧洲的人工智能基础设施竞赛中学习

Isambard-AI 的部署正值欧洲各国激烈争夺人工智能霸主地位之时。芬兰的 LUMI 系统可提供 380 petaflops 的传统计算能力。德国即将推出的 "木星 "超级计算机有望成为欧洲首个超大规模系统。然而,Isambard-AI 实现运行状态的速度比任何欧洲同行都要快。它从最初的建议到整体运行只用了不到两年的时间。相比之下,同类系统通常需要 4-5 年的时间。

这一速度优势部分来自英国脱欧后简化的采购流程。但更重要的是,它源于 GPU 部署方法的演变。传统的超级计算机安装遵循顺序阶段:基础设施、硬件、网络、软件。现代 GPU 部署采用的是并行工作流程。专业团队同时进行液体冷却安装、GPU 调试和网络配置,大大压缩了时间。

与欧洲其他部署形成鲜明对比的是宝贵的经验教训。西班牙的 MareNostrum 5 尽管规格令人印象深刻,但需要对现有设施进行大规模改造。意大利的莱昂纳多系统在整合其人工智能加速能力时遇到了延误。Isambard-AI 的成功表明,由具有特定 GPU 专业知识的团队部署的专用 AI 基础设施可以比改装的 HPC 系统实现更快的科学转化时间。

威胁人工智能雄心的专业知识差距

全球各组织竞相部署人工智能基础设施,但却出现了关键的技能缺口。传统的数据中心技术人员,无论经验多么丰富,往往缺乏现代 GPU 部署所需的专业知识。液体冷却系统需要了解流体动力学和热管理。高密度 GPU 配置要求具备超越传统服务器部署的电力输送和气流优化方面的专业知识。

这种专业技术差距在多个领域最为严重。GPU 集群的电缆管理已成为一门专业学科。Isambard-AI 的数千个高速连接需要精确布线,以保持信号完整性,同时允许维护访问。电源和冷却技术人员不仅需要了解稳态要求,还需要了解人工智能工作负载的动态行为,因为人工智能工作负载可以在几毫秒内从空闲状态切换到满功率状态。

introl.com等公司的出现填补了这一空白,他们建立了将传统数据中心技能与GPU专业知识相结合的专业团队。他们部署了超过 1,000 个 GPU 节点的系统,证明了这种新型基础设施专家的运作规模。从最近主要 GPU 云提供商的部署中可以看出,在一周内调动 40 名技术人员的能力代表了一种新的运营能力,而这种能力在传统数据中心行业中是不存在的。

超越部署:保持人工智能基础设施的卓越性

当最后一个 GPU 启动时,挑战并没有结束。维护像 Isambard-AI 这样的系统需要持续优化和主动管理。布里斯托尔大学的团队实施了复杂的监控系统,跟踪从 GPU 利用模式到冷却剂流速的所有情况。该系统每个节点有 850GB 的统一内存地址空间,即使是微小的低效也会严重影响研究效率。

现代 GPU 基础设施要求对物理系统采用 DevOps 方法。固件更新必须由工程团队在数以千计的设备上精心协调。冷却系统需要根据使用模式和环境条件进行预测性维护。网络配置需要不断调整,以优化不断变化的工作负载模式。这种运营复杂性推动了专业化服务模式的发展,在这种模式下,基础设施合作伙伴提供的是持续优化,而不是一次性部署。

经济影响巨大。每个格雷斯-霍珀超级芯片都代表着巨大的资本投资。闲置时间直接影响投资回报。部署大型 GPU 集群的企业越来越依赖于合作伙伴,他们不仅能提供安装服务,还能提供持续的优化服务。要保持 95% 以上的利用率(领先的人工智能基础架构部署的目标),需要持续关注工作负载调度、资源分配和系统健康状况。

描绘人工智能基础设施的未来

Isambard-AI 的成功部署为规划自己的人工智能基础架构计划的企业提供了重要经验。首先,将 GPU 视为简单服务器组件的时代已经结束。现代人工智能系统需要从最初的规划阶段就对电源、冷却、网络和运营进行整体思考。其次,Isambard-AI 所实现的压缩时间表(从概念到运行不到两年)正在成为新的标准,但仅限于与专业部署团队合作的组织。

展望未来,基础设施所面临的挑战只会更加严峻。英伟达™(NVIDIA®)公司的 Blackwell 架构将带来更高的功率密度,某些配置的每个 GPU 将超过 1,000 瓦。液体冷却将从高级选项过渡到绝对必需品。随着模型规模向 10 万亿个参数迈进,网络带宽需求将继续呈指数级增长。缺乏专业 GPU 基础架构专业知识的企业将发现自己越来越无法在人工智能革命中竞争。

英国对 Isambard-AI 的投资不仅仅是一项技术成就。它是国家和组织如何快速部署世界级人工智能基础设施的蓝图。通过将专门建造的设施、简化的采购流程以及与专业部署团队的合作相结合,该项目表明,人工智能时代的基础设施挑战虽然艰巨,但远非不可克服。对于那些愿意投资于正确的专业知识和合作伙伴关系的人来说,从雄心勃勃到投入运行的人工智能超级计算的道路从未如此平坦。

世界各地的大学、企业和政府都在考虑自己的人工智能基础设施投资。Isambard-AI 证明,有了正确的方法和合适的合作伙伴,即使是最雄心勃勃的 GPU 部署,也能以创新的速度从提案转向生产。现在的问题不再是是否要建立人工智能基础设施,而是您是否能够获得所需的专业技术,使之成为现实。

参考资料

联盟化工。"人工智能 GPU 冷却革命:去离子水、乙二醇和丙烯"。联盟化工。访问日期:2025 年 8 月 1 日。 https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.

计算机周刊"布里斯托尔启用英国人工智能超级计算机"。计算机周刊》,2025 年。 https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.

计算机周刊》。"英国政府承诺出资2.25亿英镑,资助布里斯托尔大学与HPE合作建造人工智能超级计算机"。计算机周刊》,2023 年 11 月。 https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.

数据中心知识"直接芯片液体冷却:优化数据中心效率"。数据中心知识。2025 年 8 月 1 日访问。 https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.

EuroHPC 联合企业。"MareNostrum5落成典礼:欧洲迎来新的世界级超级计算机"。2023 年 12 月 21 日。 https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.

EuroHPC 联合企业。"MareNostrum5:西班牙新的 EuroHPC 世界级超级计算机"。2022 年 6 月 16 日。 https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.

Forschungszentrum Jülich."JUPITER技术概览"。2025 年 8 月 1 日访问。 https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.

英国政府."主权人工智能 AIRR 启动机会:征集研究人员"。2025 年 8 月 1 日访问。 https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.

惠普企业。"英国政府投资2.25亿英镑,与布里斯托尔大学和惠普企业共同打造英国最强大的人工智能超级计算机"。新闻稿,2023 年 11 月。 https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.

HPCwire."布里斯托尔大学将托管 Isambard-AI 超级计算机,标志着人工智能和 HPC 的新时代"。HPCwire.2025 年 8 月 1 日访问。 https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.

Hyperstack。"关于英伟达™(NVIDIA®)Blackwell GPU 的所有信息:架构、功能、芯片规格"。2025 年 8 月 1 日访问。 https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.

IBM."Introl Solutions, LLC."IBM PartnerPlus Directory。2025 年 8 月 1 日访问。 https://www.ibm.com/partnerplus/directory/company/9695.

引言。"GPU基础架构部署 | 优化您的GPU部署"。访问日期:2025 年 8 月 1 日。 https://introl.com/gpu-infrastructure-deployments.

Introl."Introl - GPU 基础设施与数据中心部署专家"。访问日期:2025 年 8 月 1 日。 https://introl.com.

Introl."Introl | GPU 基础设施、数据中心解决方案与高性能计算部署"。访问日期:2025 年 8 月 1 日。 https://introl.com/blog.

IT Pro."走进 Isambard-AI:英国最强大的超级计算机"。IT Pro。2025 年 8 月 1 日访问。 https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.

IT4Innovations."LUMI"。2025 年 8 月 1 日访问。 https://www.it4i.cz/en/infrastructure/lumi.

Jetcool."什么是人工智能数据中心的直接液体冷却?2025 年 8 月 1 日访问。 https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.

英伟达™(NVIDIA®)。"用于高级多 GPU 通信的 NVLink 和 NVSwitch"。访问日期:2025 年 8 月 1 日。 https://www.nvidia.com/en-us/data-center/nvlink/.

英伟达™(NVIDIA®)。"人工智能工厂背后的引擎|英伟达™(NVIDIA®)Blackwell 架构"。访问日期:2025 年 8 月 1 日。 https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.

英伟达博客。"英伟达™(NVIDIA®)Blackwell 平台将用水效率提高了 300 倍以上"。2025 年 8 月 1 日访问。 https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.

ResearchGate."Isambard-AI:专为人工智能优化的领先级超级计算机"。2024 年 10 月。 https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.

SDxCentral."英国价值 3 亿美元的 Isambard-AI 超级计算机正式启动"。SDxCentral.2025 年 8 月 1 日访问。 https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.

TechTarget."人工智能带来液冷时代"。TechTarget.2025 年 8 月 1 日访问。 https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.

工程师"伊桑巴德人工智能超级计算机在布里斯托尔启动"。工程师》。2025 年 8 月 1 日访问。 https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.

英国研究与创新。"3亿英镑启动新人工智能研究资源的第一阶段"。2025 年 8 月 1 日访问。 https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.

布里斯托尔大学"2023:伊桑巴德-艾尔-布里斯托尔"。卡博特环境研究所。2025 年 8 月 1 日访问。 https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.

布里斯托尔大学"七月:英国最强大的超级计算机在布里斯托尔启动"。新闻与特写,2025 年 7 月。 https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.

布里斯托尔大学"十一月:前所未有的 2.25 亿英镑投资,打造英国最强大的超级计算机"。新闻与特写,2023 年 11 月。 https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.

维基百科。"布莱克韦尔(微架构)"。2025 年 8 月 1 日访问。 https://en.wikipedia.org/wiki/Blackwell_(微架构).

维基百科。"LUMI"。2025 年 8 月 1 日访问。 https://en.wikipedia.org/wiki/LUMI.

"Isambard-AI:专为人工智能优化的领先级超级计算机",arXiv 预印本 arXiv:2410.11199 (2024)。 http://arxiv.org/pdf/2410.11199.

上一页
上一页

印度尼西亚的人工智能革命:东南亚最大经济体如何成为全球人工智能强国

下一页
下一页

Grok 4 刚刚打破了人工智能的天花板--这就是为什么它能改变一切