为什么人工智能数据中心与两年前完全不同

革命性的硬件、先进的冷却技术和战略部署专长的融合正在改变企业在2025年构建人工智能基础设施的方式。英伟达™(NVIDIA®)GB300 NVL72系统引入了突破性的电源平滑技术,可将电网峰值需求降低30%,而全球GPU基础设施市场到2030年将达到1900亿美元。掌握了电源管理、散热解决方案和战略合作伙伴关系等复杂相互作用的企业,其人工智能投资的投资回报率可达到150%至350%,而基础设施规划不完善的企业则面临40%70%的资源闲置时间和超过80%的项目失败率。

人工智能基础架构的发展已经到了一个拐点,传统的数据中心方法从根本上已经不能满足需要。预计到 2027 年,人工智能工作负载的耗电量将占数据中心总用电量的 27%,到 2030 年,单个训练运行可能需要高达 8 千兆瓦的电力。这种爆炸式增长,再加上 GPU 的功耗需求在短短三年内从 400 瓦翻番至超过 1000 瓦,都要求采用全新的方法来设计、部署和管理基础设施。像 Introl 这样的公司已经成为关键的推动者,它们可以管理多达 10 万个 GPU 的部署,同时解决影响 90% 试图开展人工智能基础设施项目的企业的严重人才短缺问题。

革命性的电源管理满足前所未有的需求。

英伟达™(NVIDIA®)的GB300 NVL72代表了应对人工智能独特基础设施挑战的模式转变。该系统的三相功率平滑技术结合了升压期间的功率封顶、每个GPU 65焦耳的集成能源存储以及降压期间的智能功率燃烧硬件,直接解决了数千个GPU同步运行时产生的电网同步问题。这一创新技术使数据中心能够根据平均而非峰值消耗来配置基础设施,从而有可能在现有功率范围内将计算密度提高 30%

其技术规格揭示了这对企业部署的重要性。GB300 NVL72拥有72个Blackwell Ultra GPU,可提供比以往Hopper平台多70倍的人工智能FLOPS,每个机架拥有40TB的一致性内存,通过130TB/秒的NVLink域作为单个大规模计算单元运行。与前几代产品相比,该系统的每兆瓦代币数提高了5倍,直接解决了限制人工智能部署规模的性能需求与功耗限制的交叉问题。与传统的风冷 H100 基础架构相比,液冷集成可在相同功耗下将性能提高 25 倍。突然之间,人工智能部署的计算变得有意义了。

不断涌入的资金证明了这一点。GPU 的销售额?从今年的 200 亿美元到 2030 年的 1,800 至 1,900 亿美元。算一算,六年内增长了 10 倍。难怪每个供应商都在争相抢占一席之地。然而,这种增长面临着严重的基础设施限制,在主要市场,电源连接的交付周期超过三年,关键设备短缺导致变压器和配电装置的交付周期延迟两年。越来越多的企业开始求助于专业的部署合作伙伴来应对这些挑战,目前有 34% 的大型企业使用 GPU 即服务模式来获取所需的容量,而无需大量的资本投资。

冷却革命实现了人工智能密度的突破。

从空气冷却过渡到液体冷却不仅仅是渐进式的改进,更是现代人工智能工作负载的基本要求。传统的空气冷却最高温度为 35°C,CPU 性能保持率为 80%,无法处理现在人工智能部署中标准的50-100 千瓦机架密度。这一限制推动液冷市场从 2024 年的 56.5 亿美元增长到 2034 年的预计 484.2 亿美元,数据中心的采用率在短短三年内从 7% 增长到 22%。

现在,直接到芯片的液体冷却解决方案可处理每个组件高达 1,600W 的功率,与空气冷却相比,服务器密度提高了 58%,同时基础设施能耗降低了 40%。JetCool 等公司的 SmartPlate 微对流冷却系统针对 GPU 热点,戴尔的 DLC 3000/7000 平台则展示了有针对性的热管理如何改变部署经济性。浸入式冷却进一步拓展了范围,GRC 的 ICEraQ 等系统可实现每个系统高达 368 千瓦冷却能力,同时将功率使用效率保持在 1.03 以下。

量化效益令人信服。液体冷却可将服务器能耗平均降低 11%,同时消除 80% 的传统冷却基础设施空间需求。PhonePe 与戴尔的部署表明,通过采用液冷技术,PUE 从 1.8 降至 1.3,为基础设施运营节省了 40% 的能源。在超大规模部署方面,Supermicro 已经出货了超过 100,000 个集成液冷技术的英伟达™(NVIDIA®)GPU,证明该技术已经准备好用于大规模生产。

战略部署专业知识弥补了实施方面的差距。

现代人工智能基础架构的复杂性催生了对专业部署合作伙伴的迫切需求。Introl 就是这一新类型基础设施推动者的典范,它从一家初创公司发展到管理全球多达 10 万 GPU 的部署,自 2021 年以来年收入增长超过 100%。他们的 "劳动力即服务"(workforce-as-a-service)模式直接解决了影响 90% 企业的人才危机,即专业计算基础设施管理方面的人员缺口造成部署延迟,使企业每天损失 500 万美元或更多的机会。

Introl 的运营模式揭示了人工智能基础设施部署的最佳实践。他们拥有 550 多名现场工程师,能够在 72 小时内为关键项目进行动员,在短短两周内就为一家主要云提供商成功部署了 1,024 个 H100 GPU 节点,展示了当今竞争格局下所需的执行速度。他们的专业知识涵盖整个部署生命周期,从 GPU 互联的40,000 多英里光纤布线到 120 千瓦 AI 机柜的高级电源管理。在 Watsonx 平台集成方面,与 IBM 建立了战略合作伙伴关系;在高性能交换方面,与 Juniper Networks 建立了战略合作伙伴关系。

企业部署模式越来越倾向于混合方法,59% 的大型公司使用公共云进行人工智能训练,60% 的公司使用主机托管服务提供商,49% 的公司维护内部基础设施。这种多模式战略反映了人工智能工作负载的多样化要求,从制造机器人的2 毫秒延迟要求到需要数千个同步 GPU 的大规模并行训练运行,不一而足。取得成功的组织具有共同的特点:集中式人工智能平台可将后续部署成本降低 50-80%,跨职能团队将领域专业知识与技术能力相结合,以及在企业范围内部署前证明价值的迭代扩展方法。

业务影响使基础设施成为当务之急。

适当部署 GPU 基础设施的财务影响远远超出了技术指标。摩根大通从人工智能驱动的个性化中获得了 2.2 亿美元的增量收入,并在文档处理中实现了 90% 的生产率提升。成功与失败之间的细微差别往往在于基础架构战略,部署得当的系统可实现85-96% 的利用率,而计划不周的实施系统只能实现 40-60% 的利用率

总拥有成本分析揭示了战略规划的重要性。硬件和基础设施通常占人工智能项目总成本的 40-60%,高端 GPU 的单价从 10,000 美元到 100,000 多美元不等。但是,如果没有适当的规划,包括数据管道管理、模型训练和持续维护在内的运营成本可能会超过初始建设投资的 3-5 倍。麦肯锡的三种情景模式预测,到 2030 年,人工智能基础设施投资将从 3.7 万亿美元到 7.9 万亿美元不等,企业将调整战略、技术和变革管理,实现高达3 倍的市值增长

从资本支出模式到运营支出模式的转变正在重塑部署战略。到 2032 年,GPU 即服务市场的规模将从 32.3 亿美元增长到预计的 498.4 亿美元,这反映了企业在没有大量前期投资的情况下对灵活性的渴望。与传统的基础设施方法相比,专业供应商可降低 80% 的成本,同时还能提供最新一代的硬件。沃尔玛的五项人工智能战略目标直接与业务成果挂钩,确保技术投资转化为可衡量的业务价值,而不是成为昂贵的试验品。

结论

人工智能基础设施革命要求从根本上重新思考数据中心的设计、部署策略和合作模式。英伟达™(NVIDIA®)的GB300 NVL72功率平滑创新技术与液冷技术对热管理的变革相结合,为以前不可能实现的人工智能部署规模创造了可能性。然而,仅靠技术并不能保证成功--人工智能项目投产后85%的失败率凸显了卓越执行的重要性。

在这种新形势下取得成功的组织有三个共同特点:他们投资于平台优先的基础设施战略,以实现快速扩展;他们与专业部署专家合作,以克服人才和执行方面的差距;他们拒绝构建任何不能直接影响收入或效率的项目。没有虚无缥缈的项目,没有一无所获的 "创新实验室"。只有能赚钱的基础设施。

电网正在达到极限。冷却系统正在达到物理极限。谁能想出办法让硬件、冷却和部署等所有部件协同工作,谁就能在下一个十年独占鳌头。其他人都会被甩在后面。今天做出的基础设施决策将决定哪些企业可以利用人工智能的变革潜力,哪些企业将成为这场革命的旁观者。

参考资料

Aethir. "Maximizing ROI: The Business Case for Renting GPUs." Aethir Blog, 2025. https://aethir.com/blog-posts/maximizing-roi-the-business-case-for-renting-gpus. Agility at Scale. "Proving ROI - Measuring the Business Value of Enterprise AI." Agility at Scale, 2025. https://agility-at-scale.com/implementing/roi-of-enterprise-ai/. AI Infrastructure Alliance. "The State of AI Infrastructure at Scale 2024." AI Infrastructure Alliance, 2024. https://ai-infrastructure.org/the-state-of-ai-infrastructure-at-scale-2024/. CIO. "As AI Scales, Infrastructure Challenges Emerge." CIO, 2025. https://www.cio.com/article/3577669/as-ai-scales-infrastructure-challenges-emerge.html. ClearML. "Download the 2024 State of AI Infrastructure Research Report." ClearML Blog, 2024. https://clear.ml/blog/the-state-of-ai-infrastructure-at-scale-2024. Credence Research. "Cloud GPU Market Size, Growth & Forecast to 2032." Credence Research, 2025. https://www.credenceresearch.com/report/cloud-gpu-market. DDN. "Five AI Infrastructure Challenges and Their Solutions." DDN Resources, 2025. https://www.ddn.com/resources/research/artificial-intelligence-success-guide/. Deloitte Insights. "Generating Value from Generative AI." Deloitte, 2025. https://www2.deloitte.com/us/en/insights/topics/digital-transformation/companies-investing-in-ai-to-generate-value.html. Edge AI and Vision Alliance. "The Rise of AI Drives a Ninefold Surge in Liquid Cooling Technology." Edge AI and Vision Alliance, October 2024. https://www.edge-ai-vision.com/2024/10/the-rise-of-ai-drives-a-ninefold-surge-in-liquid-cooling-technology/. Flexential. "State of AI Infrastructure Report 2024." Flexential, 2024. https://www.flexential.com/resources/report/2024-state-ai-infrastructure. Fortune Business Insights. "GPU as a Service Market Size, Growth | Forecast Analysis [2032]." Fortune Business Insights, 2025. https://www.fortunebusinessinsights.com/gpu-as-a-service-market-107797. Gartner. "Gartner Identifies the Top Trends Impacting Infrastructure and Operations for 2025." Gartner Newsroom, December 11, 2024. https://www.gartner.com/en/newsroom/press-releases/2024-12-11-gartner-identifies-the-top-trends-impacting-infrastructure-and-operations-for-2025. GlobeNewswire. "$48.42 Billion Data Center Liquid Cooling Markets 2024-2025 and 2034: Key Growth Drivers Include Advanced Technologies such as Immersion and Direct-to-Chip Cooling." GlobeNewswire, February 5, 2025. https://www.globenewswire.com/news-release/2025/02/05/3021305/0/en/48-42-Billion-Data-Center-Liquid-Cooling-Markets-2024-2025-and-2034.html. Grand View Research. "Data Center GPU Market Size & Share | Industry Report 2033." Grand View Research, 2025. https://www.grandviewresearch.com/industry-analysis/data-center-gpu-market-report. Grand View Research. "GPU As A Service Market Size, Trends | Industry Report 2030." Grand View Research, 2025. https://www.grandviewresearch.com/industry-analysis/gpu-as-a-service-gpuaas-market-report. GR Cooling. "Liquid Immersion Cooling for Data Centers." GR Cooling, 2025. https://www.grcooling.com/. IBM. "What is AI Infrastructure?" IBM Think, 2025. https://www.ibm.com/think/topics/ai-infrastructure. Introl. "GPU Infrastructure, Data Center Solutions & HPC Deployment." Introl Blog, 2025. https://introl.com/blog. Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Introl, 2025. https://introl.com. LakeFS. "What Is AI Infrastructure: Benefits & How To Build One." LakeFS Blog, 2025. https://lakefs.io/blog/ai-infrastructure/. MarketsandMarkets. "Data Center GPU Market Size, Share & Trends, 2025 To 2030." MarketsandMarkets, 2025. https://www.marketsandmarkets.com/Market-Reports/data-center-gpu-market-18997435.html. McKinsey & Company. "How Data Centers and the Energy Sector Can Sate AI's Hunger for Power." McKinsey Insights, 2025. https://www.mckinsey.com/industries/private-capital/our-insights/how-data-centers-and-the-energy-sector-can-sate-ais-hunger-for-power. McKinsey & Company. "The Cost of Compute: A $7 Trillion Race to Scale Data Centers." McKinsey Insights, 2025. https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers. NVIDIA. "Designed for AI Reasoning Performance & Efficiency | NVIDIA GB300 NVL72." NVIDIA Data Center, 2025. https://www.nvidia.com/en-us/data-center/gb300-nvl72/. NVIDIA. "GB200 NVL72." NVIDIA Data Center, 2025. https://www.nvidia.com/en-us/data-center/gb200-nvl72/. NVIDIA Developer. "How New GB300 NVL72 Features Provide Steady Power for AI." NVIDIA Technical Blog, 2025. https://developer.nvidia.com/blog/how-new-gb300-nvl72-features-provide-steady-power-for-ai/. NVIDIA Developer. "NVIDIA Blackwell Ultra for the Era of AI Reasoning." NVIDIA Technical Blog, 2025. https://developer.nvidia.com/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/. Precedence Research. "Data Center GPU Market Size and Growth 2025 to 2034." Precedence Research, 2025. https://www.precedenceresearch.com/data-center-gpu-market. Precedence Research. "GPU as a Service Market Size and Forecast 2025 to 2034." Precedence Research, 2025. https://www.precedenceresearch.com/gpu-as-a-service-market. Supermicro. "Supermicro Solidifies Position as a Leader in Complete Rack Scale Liquid Cooling Solutions -- Currently Shipping Over 100,000 NVIDIA GPUs Per Quarter." Supermicro Press Release, 2025. https://www.supermicro.com/en/pressreleases/supermicro-solidifies-position-leader-complete-rack-scale-liquid-cooling-solutions. Techstack. "Measuring the ROI of AI: Key Metrics and Strategies." Techstack Blog, 2025. https://tech-stack.com/blog/roi-of-ai/. TechTarget. "Liquid Cooling's Moment Comes Courtesy of AI." TechTarget SearchDataCenter, 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-ai. The Register. "AI DC Investment a Gamble as ROI Uncertain, Says McKinsey." The Register, May 1, 2025. https://www.theregister.com/2025/05/01/ai_dc_investment_gamble/. VentureBeat. "5 Ways to Overcome the Barriers of AI Infrastructure Deployments." VentureBeat, 2025. https://venturebeat.com/ai/5-ways-to-overcome-the-barriers-of-ai-infrastructure-deployments/. VentureBeat. "From Pilot to Profit: The Real Path to Scalable, ROI-Positive AI." VentureBeat, 2025. https://venturebeat.com/ai/from-pilot-to-profit-the-real-path-to-scalable-roi-positive-ai/. World Economic Forum. "Why AI Needs Smart Investment Pathways to Ensure a Sustainable Impact." World Economic Forum Stories, June 2025. https://www.weforum.org/stories/2025/06/why-ai-needs-smart-investment-pathways-to-ensure-a-sustainable-impact/.

上一页
上一页

Grok 4 刚刚打破了人工智能的天花板--这就是为什么它能改变一切

下一页
下一页

建设数据中心时考虑可持续性:哪些方法可行