Google TPU v6e 与 GPU 的对比：每美元人工智能性能提升 4 倍指南

9 月 28 日

谷歌的定制芯片为大规模人工智能培训提供了令人信服的经济性，Anthropic、Midjourney 和 Salesforce 等公司都将关键工作负载从 GPU 迁移到了张量处理单元 (TPU)。TPU v6e 具有显著的成本优势，与英伟达™（NVIDIA®）H100 GPU 相比，其特定工作负载的每美元性能可提高 4 倍，同时可与 JAX 和 TensorFlow 框架无缝集成：Midjourney 从 GPU 迁移后推理成本降低了 65%，Cohere 的吞吐量提高了 3 倍，而谷歌自己的 Gemini 模型则使用了数以万计的 TPU 芯片进行训练。

TPU 架构可优化人工智能的基本操作

谷歌设计的张量处理单元专门用于矩阵乘法运算，这种运算在神经网络计算中占主导地位。收缩阵列架构可实现大规模并行，数据流经处理元件网格，连续执行乘积运算。每个 TPU v6e 芯片都支持原生 BFloat16，在保持模型准确性的同时，吞吐量比 FP32 运算提高了一倍，从而提供了持续的性能。

TPU v6e 的内存架构设计消除了常见的 GPU 瓶颈。它通过整合高带宽内存（HBM）和统一内存空间，简化了编程并确保了高效的内存管理。TPU Pod 将这些单个芯片扩展成大规模分布式系统--包含 256 个 TPU 的 v6e Pod 可提供 235 petaflops 的计算能力，芯片间互连速度达到每秒 13 Terabytes。

成熟的软件生态系统使 TPU 有别于其他加速器。JAX 提供了与 NumPy 兼容的接口，并能自动区分，而 XLA 编译器则能优化整个 TPU pod 的计算。TensorFlow 从一开始就原生支持 TPU，PyTorch 用户在迁移模型时可以利用 PyTorch/XLA 尽量减少代码改动。DeepMind 报告说，与基于 CUDA 的工作流程相比，他们的软件栈将模型开发时间缩短了 50%。

性能指标显示了 TPU 在特定工作负载方面的优势。

训练基准测试表明，TPU 在基于变压器的模型方面具有明显优势。TPU 完成 BERT 训练的速度是 A100 GPU 的 2.8 倍，而 T5-3B 模型训练只需 12 个小时就能完成，而在同类 GPU 基础架构上则需要 31 个小时 ⁶ MLPerf 结果显示，TPU v5e 在 9 个训练类别中的 8 个类别中处于领先地位，在推荐系统和自然语言处理任务中表现出色。

推理服务为大型模型提供了卓越的延迟和吞吐量。批量推理为变换器提供的吞吐量提高了 4 倍，而对于参数超过 100 亿的模型，单次查询延迟降低了 30%。谷歌翻译的部署每天在 TPU 基础架构上提供超过 10 亿次请求服务，证明了大规模生产的可靠性。

成本分析揭示了推动采用的经济优势。按需 TPU v6e 的定价从每小时 1.375 美元起，承诺 3 年的价格则降至每小时 0.55 美元。Midjourney 的迁移将每月计算支出从 200 万美元降至 70 万美元--这证明了 TPU 对推理工作负载的经济性。

能效是 TPU v6e 的一个关键优势，它可以降低原始计算价格之外的运营成本。TPU 的功耗低于同类 GPU，而谷歌数据中心的电力使用效率 (PUE) 保持在 1.1，大大高于 1.58 的行业平均水平¹¹。这种对能源效率的承诺，包括通过可再生能源和降低冷却要求实现碳中和运营，进一步提高了具有环保意识的组织的总体拥有成本，为平台的环境影响和长期成本节约提供了保证。

最佳使用案例指导采用 TPU 的决策。

TPU v6e 的架构特别适合训练大型语言模型。Transformer 模型可高效利用收缩阵列，而高内存带宽可实现 GPU 无法实现的批量规模。谷歌的 PaLM 模型训练使用了 6,144 颗 TPU v4 芯片，证明了该平台处理千亿级参数模型的能力。

推荐系统得益于 TPU 对嵌入操作的加速。YouTube 的推荐系统利用硬件优化的稀疏操作和嵌入表管理，在 TPU 上处理了 20 亿用户。

计算机视觉工作负载可利用 TPU 硬件内置的空间优化功能。卷积运算可以高效地映射到矩阵乘法，而批处理归一化与激活函数融合在一起，从而降低了内存带宽。谷歌照片每月在 TPU 上处理 280 亿张图片，证明了该平台在视觉应用方面的生产能力。

科学计算应用利用 TPU 进行突破性研究。DeepMind 的 AlphaFold 蛋白结构预测、气候建模模拟和药物发现工作流程都完全在 TPU 基础架构上运行。

部署战略要兼顾复杂性和效益。

通过谷歌云平台进行的云原生部署提供了最快的生产路径。Vertex AI 托管服务可抽象基础设施的复杂性，而云 TPU API 可直接访问自定义工作流。Kubernetes Engine 负责协调分布式训练工作，云存储和 BigQuery 负责处理数据管道。Spotify 在三个月内从内部部署 GPU 迁移到云 TPU，证明了快速部署的可行性。

多云战略将 TPU 与现有的 GPU 基础设施结合在一起。企业可根据工作负载的特点，在 TPU 上进行培训，同时在 GPU 上提供服务，或者反之亦然，从而保持灵活性。Salesforce 将 AWS GPU 基础架构与谷歌云 TPU 相结合，通过工作负载放置优化成本，同时保持供应商的多样性。

预留容量规划可确保可用性，同时降低成本。3 年期的承诺使用折扣达到 57%，各项目之间的预订共享最大限度地提高了利用率。Snap 通过战略容量管理获得了 10,000 个 TPU v6e 芯片，确保了其人工智能计划所需的资源。

开发环境设置可加快团队工作效率。Google Colab 为实验提供免费的 TPU 访问权限，而 AI Platform Notebooks 则为实验提供预配置环境。TPU 模拟器使本地开发无需云资源，而通过 VSCode 进行的远程开发则简化了工作流程。通过优化开发环境，Hugging Face 将入门时间从数周缩短到数天。

软件优化释放 TPU 性能。

JAX 的函数式编程范式和可组合转换功能加快了研究人员对它的采用。Anthropic 移植到 JAX 后，利用自动区分和 JIT 编译到 XLA，开发速度提高了 3 倍。

XLA 编译器的优化是自动进行的，但也得益于对底层概念的深入理解。运算符融合降低了内存带宽要求，而布局优化确保了张量内核的有效利用。谷歌研究院仅通过 XLA 编译就将模型吞吐量提高了 40%，而无需修改模型架构。

数据管道优化对保持 TPU 利用率至关重要。tf.data API 处理数据加载，通过预取隐藏 I/O 延迟，并行数据加载最大化吞吐量。YouTube 通过管道优化，包括采用 TFRecord 格式和适当调整洗牌缓冲区大小，将 TPU 利用率从 60% 提高到 95%。

与企业基础设施的整合需要规划。

拥有大量 GPU 投资的企业需要能最大限度减少中断的迁移策略。模型转换工具实现了大部分流程的自动化，但性能基准测试仍然至关重要。Midjourney 公司通过在过渡期间运行并行部署，在六周内完成了迁移，实现了零停机。

Vertex AI 集成提供企业级 ML 操作。AutoML 可实现无代码模型训练，而 Pipelines 可协调复杂的工作流。模型注册中心（Model Registry）负责版本管理，端点（Endpoints）负责管理服务基础设施。Spotify 通过 Vertex AI 管理着 1000 个模型，展示了企业级能力。

卓越运营需要新技能。

在 pod 规模上，监控和可观测性变得至关重要。云监控会自动集成 TPU 指标，而自定义仪表盘则会跟踪特定模型的指标。云 TPU 分析器可识别瓶颈，并通过时间线分析揭示优化机会。DeepMind 通过全面的可观察性基础架构持续监控 50,000 个 TPU。

容错功能可从容应对不可避免的硬件故障。自动检测和恢复机制可从检查点重新启动训练，而帮派调度可防止部分 pod 分配。得益于强大的容错系统，谷歌在出现硬件故障的情况下仍实现了 99.9% 的作业完成率。

成本优化策略对经济效益有重大影响。可抢占式 TPU 可将容错工作负载的成本降低 70%，而定点实例可在非高峰时段节省成本。根据工作负载要求合理调整 TPU 类型并优化批量大小可防止浪费。通过系统优化，包括调整检查点频率和部署多租户，Snap 将培训成本降低了 70%。

现实世界的实施证明了其价值。

Anthropic 的克劳德训练专门使用 TPU，最近的模型同时使用了 16,384 个 TPU 芯片。宪法人工智能训练方法得益于 TPU 的内存容量和互连速度。与同等的 GPU 基础设施相比，成本降低了 60% 以上，同时通过简化分布式训练提高了迭代速度。

谷歌的 Gemini 模型展示了超大规模的 TPU 能力。拥有超过一万亿个参数的 Ultra 变体在数万个 TPU 上进行训练，展示了该平台处理下一代模型架构的能力。多模态功能与 TPU 的统一内存架构自然集成。

Salesforce Einstein GPT 利用 TPU 提供企业级培训和多租户服务。该部署符合严格的合规性要求，同时提供可预测的成本以及与现有 Salesforce 基础设施的无缝集成。通过加快模型更新和提高预测准确性，业务价值得以实现。

从经济学角度看，适当的工作负载更适合使用 TPU。

总体拥有成本分析表明，TPU 的优势适用于特定的工作负载。企业可以省去 GPU 软件许可费用，降低功耗，简化网络基础设施。更高的利用率和更低的管理开销带来了可观的节约。Snap 的总体拥有成本分析显示，与同类 GPU 基础架构相比，可节省 55% 的成本。

每美元性能指标显示出令人信服的经济性。在大型语言模型训练方面，TPU 的价值约为 H100 GPU 的 4 倍，在推荐系统和大批量推理方面也具有类似的优势。能源成本和运行效率的提高使这些优势更加突出。

加快产品上市速度不仅能节约成本，还能带来竞争优势。更快的培训迭代可实现快速实验，而托管服务则可减轻运营负担。预训练模型和迁移学习能力加快了开发速度。一家医疗保健初创企业利用 TPU 基础设施将其人工智能产品的开发时间从六个月缩短到六周。

战略决策需要进行工作量分析。

Google TPU v6e 的部署为变压器模型、推荐系统和科学计算应用提供了显著优势。企业通过为最合适的工作负载选择 TPU，实现了成本节约、性能提升和操作简化。要想取得成功，就必须了解架构差异，针对平台优化软件，并利用谷歌云的集成生态系统来实现最佳性能。

在 TPU 和 GPU 之间做出选择取决于具体要求。TPU 擅长大批量训练和转换器架构，而 GPU 则提供更大的灵活性和成熟的生态系统。企业正越来越多地采用混合战略，战略性地利用这两种平台。随着模型越来越大，推理规模扩展到数十亿用户，TPU 的优势对于合适的工作负载越来越有吸引力。

对于正在探索人工智能基础架构部署这一复杂领域的公司来说，Introl 等专家提供的专业技术 Introl等专家的专业知识证明是无价之宝--无论是实施具有先进冷却和网络功能的 GPU 集群，还是评估替代加速器选项。了解这两个生态系统可确保企业做出明智的决定，在性能、成本和运营复杂性之间取得平衡，以满足其特定的人工智能计划。

参考资料

谷歌云。"云 TPU 性能和定价分析"。谷歌云文档，2024 年。 https://cloud.google.com/tpu/docs/performance-and-pricing
中途。"基础设施迁移：从 GPU 到 TPU"。Midjourney 工程博客，2024 年。 https://www.midjourney.com/engineering/infrastructure-migration
Patterson, David, et al. "机器学习培训的碳足迹将趋于稳定，然后缩小"。IEEE Computer 55, no. 7 (2022): 18-28. https://doi.org/10.1109/MC.2022.3148714
谷歌云。"TPU v5e 技术规范"。谷歌云 TPU 文档，2024 年。 https://cloud.google.com/tpu/docs/v5e
DeepMind."利用 TPU 基础设施扩展人工智能研究"。DeepMind 技术博客，2024 年。 https://www.deepmind.com/blog/scaling-ai-research-with-tpus
MLCommons."MLPerf训练v3.1结果"。MLPerf 基准结果，2024 年。 https://mlcommons.org/benchmarks/training
---."MLPerf推理v3.1结果"。MLPerf 基准结果，2024 年。 https://mlcommons.org/benchmarks/inference
谷歌人工智能。"使用 TPU 扩展谷歌翻译"。谷歌人工智能博客，2024 年。 https://ai.googleblog.com/2024/01/scaling-google-translate-tpus.html
谷歌云。"云 TPU 定价"。谷歌云定价文档，2024 年。 https://cloud.google.com/tpu/pricing
Holz, David."Midjourney的基础设施演变"。VentureBeat 采访，2024 年 1 月。 https://venturebeat.com/ai/midjourney-infrastructure-evolution-interview/
谷歌"2024年环境报告"。谷歌可持续发展报告，2024。 https://sustainability.google/reports/environmental-report-2024/
Chowdhery, Aakanksha, et al. "PaLM: Scaling Language Modeling with Pathways." arXiv preprint, 2022. https://arxiv.org/abs/2204.02311
Covington、Paul、Jay Adams 和 Emre Sargin。"用于 YouTube 推荐的深度神经网络"。RecSys '16: Proceedings of the 10th ACM Conference on Recommender Systems (2016)：191-198. https://doi.org/10.1145/2959100.2959190
谷歌云。"谷歌照片：使用 TPU 处理数十亿张图片"。谷歌云案例研究，2024 年。 https://cloud.google.com/customers/google-photos
Jumper、John 等人 "利用 AlphaFold 进行高精度蛋白质结构预测"。自然 596 (2021)：583-589. https://doi.org/10.1038/s41586-021-03819-2
Spotify。"将 ML 基础设施迁移到谷歌云 TPU"。Spotify 工程，2024 年。 https://engineering.atspotify.com/2024/01/ml-infrastructure-tpu-migration/
Salesforce。"使用 Einstein GPT 的多云 AI 战略"。Salesforce 工程博客，2024 年。 https://engineering.salesforce.com/multi-cloud-ai-strategy-einstein-gpt/
Snap Inc."为 Snapchat 扩展人工智能基础设施"。Snap 工程，2024 年。 https://eng.snap.com/scaling-ai-infrastructure-2024
拥抱脸庞"为 TPU 优化开发工作流程"。Hugging Face 博客，2024 年。 https://huggingface.co/blog/tpu-optimization-workflows
Anthropic."在 TPU 上训练大型语言模型"。人类学研究，2024 年。 https://www.anthropic.com/research/training-llms-on-tpus
谷歌研究。"针对 TPU 的 XLA 编译优化"。谷歌人工智能博客，2024 年。 https://blog.research.google/2024/01/xla-compilation-optimizations-tpus.html
YouTube。"用于 TPU 训练的数据管道优化"。YouTube 工程博客，2024 年。 https://blog.youtube/engineering-and-developers/data-pipeline-optimization-tpu/
Midjourney."零停机迁移策略"。Midjourney 技术博客，2024 年。 https://www.midjourney.com/tech/zero-downtime-migration
Spotify."使用 Vertex AI 管理 1000 多个模型"。Spotify 技术博客，2024 年。 https://engineering.atspotify.com/2024/02/vertex-ai-model-management/
DeepMind."大规模 TPU 部署的监控基础设施"。DeepMind 工程公司，2024 年。 https://www.deepmind.com/blog/monitoring-large-scale-tpu-deployments
Dean、Jeff 等人，"用于训练神经网络的大规模分布式系统"。NIPS 2012. https://papers.nips.cc/paper/2012/file/6aca97005c68f1206823815f66102863-Paper.pdf
Snap Inc."热塑性聚氨酯培训的成本优化策略"。Snap 工程博客，2024 年。 https://eng.snap.com/cost-optimization-tpu-training
Anthropic."人工智能宪法：培训方法与基础设施"。人类学研究论文，2023。 https://www.anthropic.com/constitutional-ai-paper
谷歌"双子座：高能力多模态模型家族"。谷歌 DeepMind，2023 年。 https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Salesforce。"爱因斯坦 GPT：规模化企业人工智能"。Salesforce Research，2024 年。 https://www.salesforce.com/products/platform/einstein-gpt/
Snap Inc."总体拥有成本分析：用于 ML 工作负载的 TPU 与 GPU"。Snap Inc.技术报告，2024 年。 https://eng.snap.com/tco-analysis-tpu-gpu-2024
谷歌云。"每美元性能分析：TPU 与 GPU。"谷歌云白皮书，2024 年。 https://cloud.google.com/whitepapers/tpu-performance-analysis
谷歌云。"医疗保健 AI 初创公司利用 TPU 加速药物发现"。谷歌云案例研究，2024 年。 https://cloud.google.com/customers/healthcare-ai-drug-discovery

布莱克-克罗斯利