英伟达™(NVIDIA®)FP4 推理实现 50 倍的效率

英伟达™(NVIDIA®)的FP4技术实现了25-50倍的能效提升,同时保持了与更高精度格式几乎相同的精度,从根本上改变了人工智能部署的经济性。Blackwell架构的NVFP4格式通过复杂的双级扩展和第五代张量内核,在FP8推理的基础上实现了高达4倍的性能提升。主要云提供商和人工智能公司正在迅速将 FP4 用于生产工作负载,DeepSeek-R1 在单 GPU 上实现了每用户每秒 250 个 token 以上的速度。与 FP16 相比,这一突破使 Llama 3.1 405B 等大规模语言模型的内存减少了 3.5 倍,从而以前所未有的规模和效率实现了先进的人工智能功能。

为超低精度推理提供动力的架构

英伟达™(NVIDIA®)的 NVFP4 代表着数值格式的复杂演进,它采用 E2M1 结构(1 个符号位、2 个指数位、1 个尾数位),并通过双级缩放得到增强。第一级将 E4M3 FP8 缩放因子应用于 16 值微块,而第二级 FP32 每张量缩放提供全局范围调整。与 MXFP4 等更简单的二幂缩放方法相比,这种方法可将量化误差降低 88%

Blackwell B200 GPU 通过双芯片设计中的 2080 亿个晶体管实现了这一目标,这些晶体管通过10TB/s NV-HBI 接口连接,实现了软件透明操作。第五代张量核通过硬件加速扩展提供原生 NVFP4 支持,实现了 20 PetaFLOPS 的 FP4 性能。该架构包括靠近计算单元的专用张量存储器(TMEM),可降低数据移动能耗,实现持续的高吞吐量。

消费者通过 GeForce RTX 50 系列实现了 FP4 功能,将 FP4 功能带到了拥有多达4000 AI TOPS 的台式机系统中。这些 GPU 能够生成本地 FLUX 图像,速度是 FP8 的 3.9 倍,证明了 FP4 在数据中心部署之外的可行性。即将推出的 Blackwell Ultra(B300/GB300)进一步拓展了边界,配备了 288GB HBM3E 内存,性能提高了 1.5 倍,每 GB300 NVL72 系统可实现 1.1 ExaFLOPS。

性能指标重塑推理经济学。

基准测试数据揭示了 FP4 对人工智能推理性能的变革性影响。与H200 FP8相比,DeepSeek-R1 671B在B200 FP4上的吞吐量提高了3倍多,单个DGX B200系统每秒可提供30,000多个令牌。重要的是,准确性的下降仍然很小--当从 FP8 量化到 FP4 时,DeepSeek-R1 的 MMLU 分数仅下降了 0.1%(从 90.8% 降到 90.7%)。

该技术显著提高了内存效率。Llama 3.1 405B在 FP32 中需要140GB 内存,而在 FP4 中只需要 17.5GB,减少了 8 倍,从而可以在较小的 GPU 配置上运行大型模型。FLUX 图像生成也有类似的优势,在 FP4 低 VRAM 模式下,FP16 内存使用量从 51.4GB 降至 9.9GB,同时保持了视觉质量指标。

MLPerf v5.0 结果验证了生产可行性,Llama 2 70B 性能中位数同比翻了一番,最佳分数提高了 3.3 倍。能效提升同样令人印象深刻--H100 的每个令牌 10 焦耳在 B200 上降至 0.4 焦耳,在 B300 上降至 0.2 焦耳,提高了 50 倍。这些指标直接转化为运营成本的节约,到 2024-2025 年,业界的 GPU 推理成本将降低约 90%。

大型科技公司大规模部署 FP4。

云提供商通过在主要平台上进行生产部署,引领了 FP4 的应用。Lambda Labs提供支持FP4的英伟达HGX B200集群作为一键集群,而CoreWeave使用GB200 GPU在Llama 3.1 405B模型上实现了每秒800个令牌。英伟达™(NVIDIA®)的技术已经超越了英伟达™(NVIDIA®)的生态系统--Meta、OpenAI和微软都部署了AMD Instinct MI300X用于生产推理,并计划采用具有原生FP4支持的MI350。

实际应用证明了FP4在各个领域的通用性。包括摩根大通在内的金融服务公司将FP4用于风险评估和替代数据分析,而医疗机构则将该技术用于边缘人工智能应用,推理速度提高了30%,内存减少了50%。制造业的部署实现了在计算能力有限的设备上进行实时决策,将人工智能的应用范围扩大到了以前无法实现的环境。

软件生态系统迅速成熟,以支持采用。TensorRT Model Optimizer 提供了全面的 FP4 量化工作流程,而 vLLM 等框架则增加了对 NVFP4 的早期支持。Hugging Face 承载着不断增长的预量化 FP4 模型检查点存储库,包括 DeepSeek-R1、Llama 3.1 和 FLUX 变体,加快了企业的部署时间。

基础设施转型实现超低精度。

要大规模部署FP4,就必须从根本上改变基础设施,尤其是电源和冷却系统。英伟达™(NVIDIA®)GB200 NVL72每个容纳72个GPU的机架需要120千瓦的功率,超出了95%以上现有数据中心的能力。尽管机架功率较高,但系统级效率却显著提高--单个NVL72系统可取代9个HGX H100系统,而同等计算能力下的功耗却降低了83%。

由于每个 GPU 的总功耗为 1000W,因此 Blackwell 部署必须采用液体冷却。在所有发热组件上配备冷板的直达芯片冷却系统可以在45°C 的冷却液温度下运行,从而可以用冷却塔取代高能耗的冷却器。超微的 DLC-2 解决方案每个机架最多可支持 96 个 B200 GPU,冷却能力为 250 千瓦,为高密度人工智能基础设施建立了新的标准。

软件要求包括更新的 CUDA 驱动程序、支持原生 FP4 的 TensorRT-LLM 以及专门的量化工具。通过 TensorRT Model Optimizer 进行训练后量化可实现快速部署,而量化感知训练可提供最佳精度保持。SVDQuant 方法无需训练即可达到QAT 级别的准确度,为计算资源有限的企业提供了极大的部署灵活性。

先进的量化技术保留了模型的智能性。

现代量化技术通过复杂的方法确保 FP4 部署保持生产质量的准确性。英伟达™(NVIDIA®)的双级缩放技术可自动适应张量值分布,而变形引擎(Transformer Engine)可分析1000多种操作,动态优化缩放因子。这种软硬件协同设计使DeepSeek-R1在FP4中实现了98.1%的精度,在特定基准上超过了FP8基准。

SmoothQuant 和 AWQ(激活感知权重量化)代表了最先进的后训练方法,使 Falcon 180B 等模型能够在单 GPU 上运行。为了最大限度地保持精度,量化感知训练在微调过程中模拟了 FP4 操作,使网络能够适应低精度部署的权重分布。英伟达™(NVIDIA®)的Nemotron 4模型通过QAT实现了无损FP4量化,达到甚至超过了BF16基准性能。

量化技术在不断发展,以应对特定的挑战。离群点处理机制可防止敏感层中的激活崩溃,而混合精度策略可为关键操作保持更高精度。这些进步使得 FP4 在从密集变换器到混合专家设计等各种模型架构中都具有可行性。

展望超低精度的广泛应用

基于当前的发展势头和路线图的可视性,FP4 的应用轨迹似乎令人信服。英伟达™(NVIDIA®)的Rubin一代目标是50 PFLOPs的密集FP4计算能力,是当前能力的三倍,而AMD的MI400系列则承诺为混合专家模型提供10倍的性能提升。硬件供应仍然是主要的制约因素,据报道,2025 年的 B200/B300 产品已经全部卖给了主要的云计算提供商。

成本动态非常有利于持续采用。各机构报告称,与竞争解决方案相比,FP4 的每美元代币成本最多可提高 40%,而能效的提高则解决了日益增长的可持续发展问题。民主化效果显著--通过内存和计算效率的提高,以前需要大规模 GPU 集群才能实现的功能,现在小型机构也能实现。

随着液体冷却和高密度电力输送成为人工智能部署的标准配置,基础设施的发展将加速。在改进的冷却技术和电源管理系统的支持下,为 50-120 千瓦机架设计的数据中心将大量涌现。随着无缝框架集成、自动量化管道和预训练模型可用性的扩大,软件成熟度将继续提高,从而减少各行业采用 FP4 的障碍。

参考资料

  1. 英伟达™(NVIDIA®)开发人员。"面向高效、精确的低精度推理的 NVFP4 简介"。英伟达™(NVIDIA®)技术博客。2025 年 8 月 5 日访问。 https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/.

  2. Wccftech."英伟达™(NVIDIA®)深入研究 Blackwell 基础架构:NV-HBI 用于将两个人工智能 GPU 融合在一起、第五代张量内核、第五代 NVLINK 和 Spectrum-X 详情"。2025 年 8 月 5 日访问。 https://wccftech.com/nvidia-blackwell-ai-deep-dive-nv-hbi-fuse-two-ai-gpus-together-5th-gen-tensor-cores-5th-gen-nvlink-spectrum-x/.

  3. 英伟达™(NVIDIA®)开发人员。"NVIDIA TensorRT 为 NVIDIA Blackwell GeForce RTX 50 系列 GPU 解锁 FP4 图像生成功能"。英伟达™(NVIDIA®)技术博客。2025 年 8 月 5 日访问。 https://developer.nvidia.com/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/.

  4. 汤姆的硬件"Nvidia发布Blackwell Ultra B300--比B200快1.5倍,配备288GB HBM3e和15 PFLOPS密集FP4"。2025 年 8 月 5 日访问。 https://www.tomshardware.com/pc-components/gpus/nvidia-announces-blackwell-ultra-b300-1-5x-faster-than-b200-with-288gb-hbm3e-and-15-pflops-dense-fp4.

  5. 英伟达开发人员。"英伟达™(NVIDIA®)Blackwell 提供创世界纪录的 DeepSeek-R1 推断性能"。英伟达技术博客。2025 年 8 月 5 日访问。 https://developer.nvidia.com/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/.

  6. Lambda。"利用 Lambda 上的 FP4 量化加速人工智能工作流程"。2025 年 8 月 5 日访问。 https://lambda.ai/blog/lambda-1cc-fp4-nvidia-hgx-b200.

  7. HPCwire."MLPerf v5.0 反映了人工智能推理向推理的转变"。2025 年 4 月 2 日。 https://www.hpcwire.com/2025/04/02/mlperf-v5-0-reflects-the-shift-toward-reasoning-in-ai-inference/.

  8. Primitiva."你需要知道的推理成本"。Substack.2025 年 8 月 5 日访问。 https://primitiva.substack.com/p/all-you-need-to-know-about-inference.

  9. Lambda。"利用 Lambda 上的 FP4 量化加速人工智能工作流程"。2025 年 8 月 5 日访问。 https://lambda.ai/blog/lambda-1cc-fp4-nvidia-hgx-b200.

  10. AMD."AMD发布开放式人工智能生态系统愿景,详细介绍推进人工智能2025的新硅片、软件和系统"。2025 年 6 月 12 日。 https://www.amd.com/en/newsroom/press-releases/2025-6-12-amd-unveils-vision-for-an-open-ai-ecosystem-detai.html.

  11. 下一个平台"对金融服务公司而言,人工智能推理与培训一样具有挑战性"。2025 年 7 月 31 日。 https://www.nextplatform.com/2025/07/31/for-financial-services-firms-ai-inference-is-as-challenging-as-training/.

  12. 英伟达™(NVIDIA®)开发人员。"英伟达™(NVIDIA®)TensorRT 模型优化器加速生成式人工智能推理性能。英伟达技术博客。2025 年 8 月 5 日访问。 https://developer.nvidia.com/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/.

  13. AMAX."部署 NVIDIA Blackwell 的五大注意事项"。2025 年 8 月 5 日访问。 https://www.amax.com/top-5-considerations-for-deploying-nvidia-blackwell/.

  14. ScienceDirect."数据中心的液体冷却:面临挑战的必然选择"。2025 年 8 月 5 日访问。 https://www.sciencedirect.com/science/article/abs/pii/S1359431124007804.

  15. 超微公司。"NVIDIA Blackwell HGX B200 和 GB200 NVL72 解决方案"。2025 年 8 月 5 日访问。 https://www.supermicro.com/en/accelerators/nvidia.

  16. 英伟达™(NVIDIA®)开发人员。"面向高效、精确的低精度推理的 NVFP4 简介"。英伟达™(NVIDIA®)技术博客。2025 年 8 月 5 日访问。 https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/.

  17. EE Times."Nvidia的Blackwell提供FP4,第二代变压器引擎"。2024 年 3 月 18 日。 https://www.eetimes.com/nvidias-blackwell-gpu-offers-fp4-transformer-engine-sharp/.

  18. 比特币以太坊新闻网站."增强大型语言模型:英伟达™(NVIDIA®)的训练后量化技术"。2025 年 8 月 5 日访问。 https://bitcoinethereumnews.com/tech/enhancing-large-language-models-nvidias-post-training-quantization-techniques/.

  19. 半分析"NVIDIA GTC 2025 - 为推理而生、Vera Rubin、Kyber、CPO、Dynamo Inference、Jensen Math、Feynman"。2025 年 3 月 19 日。 https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/.

  20. Fireworks AI。"FireAttention V4:业界领先的延迟和成本效率与 FP4"。2025 年 8 月 5 日访问。 https://fireworks.ai/blog/fireattention-v4-fp4-b200.

上一页
上一页

英伟达™(NVIDIA®)Omniverse:价值 50T 美元的物理人工智能操作系统

下一页
下一页

马来西亚 150 亿美元的人工智能革命助力东南亚的数字未来