Google TPU v6e 与 GPU 的对比:每美元人工智能性能提升 4 倍指南
谷歌的定制芯片为大规模人工智能培训提供了令人信服的经济性,Anthropic、Midjourney 和 Salesforce 等公司都将关键工作负载从 GPU 迁移到了张量处理单元 (TPU)。TPU v6e 具有显著的成本优势,与英伟达™(NVIDIA®)H100 GPU 相比,其特定工作负载的每美元性能可提高 4 倍,同时可与 JAX 和 TensorFlow 框架无缝集成:Midjourney 从 GPU 迁移后推理成本降低了 65%,Cohere 的吞吐量提高了 3 倍,而谷歌自己的 Gemini 模型则使用了数以万计的 TPU 芯片进行训练。
TPU 架构可优化人工智能的基本操作
谷歌设计的张量处理单元专门用于矩阵乘法运算,这种运算在神经网络计算中占主导地位。收缩阵列架构可实现大规模并行,数据流经处理元件网格,连续执行乘积运算。每个 TPU v6e 芯片都支持原生 BFloat16,在保持模型准确性的同时,吞吐量比 FP32 运算提高了一倍,从而提供了持续的性能。
TPU v6e 的内存架构设计消除了常见的 GPU 瓶颈。它通过整合高带宽内存(HBM)和统一内存空间,简化了编程并确保了高效的内存管理。TPU Pod 将这些单个芯片扩展成大规模分布式系统--包含 256 个 TPU 的 v6e Pod 可提供 235 petaflops 的计算能力,芯片间互连速度达到每秒 13 Terabytes。
成熟的软件生态系统使 TPU 有别于其他加速器。JAX 提供了与 NumPy 兼容的接口,并能自动区分,而 XLA 编译器则能优化整个 TPU pod 的计算。TensorFlow 从一开始就原生支持 TPU,PyTorch 用户在迁移模型时可以利用 PyTorch/XLA 尽量减少代码改动。DeepMind 报告说,与基于 CUDA 的工作流程相比,他们的软件栈将模型开发时间缩短了 50%。
性能指标显示了 TPU 在特定工作负载方面的优势。
训练基准测试表明,TPU 在基于变压器的模型方面具有明显优势。TPU 完成 BERT 训练的速度是 A100 GPU 的 2.8 倍,而 T5-3B 模型训练只需 12 个小时就能完成,而在同类 GPU 基础架构上则需要 31 个小时 ⁶ MLPerf 结果显示,TPU v5e 在 9 个训练类别中的 8 个类别中处于领先地位,在推荐系统和自然语言处理任务中表现出色。
推理服务为大型模型提供了卓越的延迟和吞吐量。批量推理为变换器提供的吞吐量提高了 4 倍,而对于参数超过 100 亿的模型,单次查询延迟降低了 30%。谷歌翻译的部署每天在 TPU 基础架构上提供超过 10 亿次请求服务,证明了大规模生产的可靠性。
成本分析揭示了推动采用的经济优势。按需 TPU v6e 的定价从每小时 1.375 美元起,承诺 3 年的价格则降至每小时 0.55 美元。Midjourney 的迁移将每月计算支出从 200 万美元降至 70 万美元--这证明了 TPU 对推理工作负载的经济性。
能效是 TPU v6e 的一个关键优势,它可以降低原始计算价格之外的运营成本。TPU 的功耗低于同类 GPU,而谷歌数据中心的电力使用效率 (PUE) 保持在 1.1,大大高于 1.58 的行业平均水平¹¹。这种对能源效率的承诺,包括通过可再生能源和降低冷却要求实现碳中和运营,进一步提高了具有环保意识的组织的总体拥有成本,为平台的环境影响和长期成本节约提供了保证。
最佳使用案例指导采用 TPU 的决策。
TPU v6e 的架构特别适合训练大型语言模型。Transformer 模型可高效利用收缩阵列,而高内存带宽可实现 GPU 无法实现的批量规模。谷歌的 PaLM 模型训练使用了 6,144 颗 TPU v4 芯片,证明了该平台处理千亿级参数模型的能力。
推荐系统得益于 TPU 对嵌入操作的加速。YouTube 的推荐系统利用硬件优化的稀疏操作和嵌入表管理,在 TPU 上处理了 20 亿用户。
计算机视觉工作负载可利用 TPU 硬件内置的空间优化功能。卷积运算可以高效地映射到矩阵乘法,而批处理归一化与激活函数融合在一起,从而降低了内存带宽。谷歌照片每月在 TPU 上处理 280 亿张图片,证明了该平台在视觉应用方面的生产能力。
科学计算应用利用 TPU 进行突破性研究。DeepMind 的 AlphaFold 蛋白结构预测、气候建模模拟和药物发现工作流程都完全在 TPU 基础架构上运行。
部署战略要兼顾复杂性和效益。
通过谷歌云平台进行的云原生部署提供了最快的生产路径。Vertex AI 托管服务可抽象基础设施的复杂性,而云 TPU API 可直接访问自定义工作流。Kubernetes Engine 负责协调分布式训练工作,云存储和 BigQuery 负责处理数据管道。Spotify 在三个月内从内部部署 GPU 迁移到云 TPU,证明了快速部署的可行性。
多云战略将 TPU 与现有的 GPU 基础设施结合在一起。企业可根据工作负载的特点,在 TPU 上进行培训,同时在 GPU 上提供服务,或者反之亦然,从而保持灵活性。Salesforce 将 AWS GPU 基础架构与谷歌云 TPU 相结合,通过工作负载放置优化成本,同时保持供应商的多样性。
预留容量规划可确保可用性,同时降低成本。3 年期的承诺使用折扣达到 57%,各项目之间的预订共享最大限度地提高了利用率。Snap 通过战略容量管理获得了 10,000 个 TPU v6e 芯片,确保了其人工智能计划所需的资源。
开发环境设置可加快团队工作效率。Google Colab 为实验提供免费的 TPU 访问权限,而 AI Platform Notebooks 则为实验提供预配置环境。TPU 模拟器使本地开发无需云资源,而通过 VSCode 进行的远程开发则简化了工作流程。通过优化开发环境,Hugging Face 将入门时间从数周缩短到数天。
软件优化释放 TPU 性能。
JAX 的函数式编程范式和可组合转换功能加快了研究人员对它的采用。Anthropic 移植到 JAX 后,利用自动区分和 JIT 编译到 XLA,开发速度提高了 3 倍。
XLA 编译器的优化是自动进行的,但也得益于对底层概念的深入理解。运算符融合降低了内存带宽要求,而布局优化确保了张量内核的有效利用。谷歌研究院仅通过 XLA 编译就将模型吞吐量提高了 40%,而无需修改模型架构。
数据管道优化对保持 TPU 利用率至关重要。tf.data API 处理数据加载,通过预取隐藏 I/O 延迟,并行数据加载最大化吞吐量。YouTube 通过管道优化,包括采用 TFRecord 格式和适当调整洗牌缓冲区大小,将 TPU 利用率从 60% 提高到 95%。
与企业基础设施的整合需要规划。
拥有大量 GPU 投资的企业需要能最大限度减少中断的迁移策略。模型转换工具实现了大部分流程的自动化,但性能基准测试仍然至关重要。Midjourney 公司通过在过渡期间运行并行部署,在六周内完成了迁移,实现了零停机。
Vertex AI 集成提供企业级 ML 操作。AutoML 可实现无代码模型训练,而 Pipelines 可协调复杂的工作流。模型注册中心(Model Registry)负责版本管理,端点(Endpoints)负责管理服务基础设施。Spotify 通过 Vertex AI 管理着 1000 个模型,展示了企业级能力。
卓越运营需要新技能。
在 pod 规模上,监控和可观测性变得至关重要。云监控会自动集成 TPU 指标,而自定义仪表盘则会跟踪特定模型的指标。云 TPU 分析器可识别瓶颈,并通过时间线分析揭示优化机会。DeepMind 通过全面的可观察性基础架构持续监控 50,000 个 TPU。
容错功能可从容应对不可避免的硬件故障。自动检测和恢复机制可从检查点重新启动训练,而帮派调度可防止部分 pod 分配。得益于强大的容错系统,谷歌在出现硬件故障的情况下仍实现了 99.9% 的作业完成率。
成本优化策略对经济效益有重大影响。可抢占式 TPU 可将容错工作负载的成本降低 70%,而定点实例可在非高峰时段节省成本。根据工作负载要求合理调整 TPU 类型并优化批量大小可防止浪费。通过系统优化,包括调整检查点频率和部署多租户,Snap 将培训成本降低了 70%。
现实世界的实施证明了其价值。
Anthropic 的克劳德训练专门使用 TPU,最近的模型同时使用了 16,384 个 TPU 芯片。宪法人工智能训练方法得益于 TPU 的内存容量和互连速度。与同等的 GPU 基础设施相比,成本降低了 60% 以上,同时通过简化分布式训练提高了迭代速度。
谷歌的 Gemini 模型展示了超大规模的 TPU 能力。拥有超过一万亿个参数的 Ultra 变体在数万个 TPU 上进行训练,展示了该平台处理下一代模型架构的能力。多模态功能与 TPU 的统一内存架构自然集成。
Salesforce Einstein GPT 利用 TPU 提供企业级培训和多租户服务。该部署符合严格的合规性要求,同时提供可预测的成本以及与现有 Salesforce 基础设施的无缝集成。通过加快模型更新和提高预测准确性,业务价值得以实现。
从经济学角度看,适当的工作负载更适合使用 TPU。
总体拥有成本分析表明,TPU 的优势适用于特定的工作负载。企业可以省去 GPU 软件许可费用,降低功耗,简化网络基础设施。更高的利用率和更低的管理开销带来了可观的节约。Snap 的总体拥有成本分析显示,与同类 GPU 基础架构相比,可节省 55% 的成本。
每美元性能指标显示出令人信服的经济性。在大型语言模型训练方面,TPU 的价值约为 H100 GPU 的 4 倍,在推荐系统和大批量推理方面也具有类似的优势。能源成本和运行效率的提高使这些优势更加突出。
加快产品上市速度不仅能节约成本,还能带来竞争优势。更快的培训迭代可实现快速实验,而托管服务则可减轻运营负担。预训练模型和迁移学习能力加快了开发速度。一家医疗保健初创企业利用 TPU 基础设施将其人工智能产品的开发时间从六个月缩短到六周。
战略决策需要进行工作量分析。
Google TPU v6e 的部署为变压器模型、推荐系统和科学计算应用提供了显著优势。企业通过为最合适的工作负载选择 TPU,实现了成本节约、性能提升和操作简化。要想取得成功,就必须了解架构差异,针对平台优化软件,并利用谷歌云的集成生态系统来实现最佳性能。
在 TPU 和 GPU 之间做出选择取决于具体要求。TPU 擅长大批量训练和转换器架构,而 GPU 则提供更大的灵活性和成熟的生态系统。企业正越来越多地采用混合战略,战略性地利用这两种平台。随着模型越来越大,推理规模扩展到数十亿用户,TPU 的优势对于合适的工作负载越来越有吸引力。
对于正在探索人工智能基础架构部署这一复杂领域的公司来说,Introl 等专家提供的专业技术 Introl等专家的专业知识证明是无价之宝--无论是实施具有先进冷却和网络功能的 GPU 集群,还是评估替代加速器选项。了解这两个生态系统可确保企业做出明智的决定,在性能、成本和运营复杂性之间取得平衡,以满足其特定的人工智能计划。
参考资料
谷歌云。"云 TPU 性能和定价分析"。谷歌云文档,2024 年。 https://cloud.google.com/tpu/docs/performance-and-pricing
中途。"基础设施迁移:从 GPU 到 TPU"。Midjourney 工程博客,2024 年。 https://www.midjourney.com/engineering/infrastructure-migration
Patterson, David, et al. "机器学习培训的碳足迹将趋于稳定,然后缩小"。IEEE Computer 55, no. 7 (2022): 18-28. https://doi.org/10.1109/MC.2022.3148714
谷歌云。"TPU v5e 技术规范"。谷歌云 TPU 文档,2024 年。 https://cloud.google.com/tpu/docs/v5e
DeepMind."利用 TPU 基础设施扩展人工智能研究"。DeepMind 技术博客,2024 年。 https://www.deepmind.com/blog/scaling-ai-research-with-tpus
MLCommons."MLPerf训练v3.1结果"。MLPerf 基准结果,2024 年。 https://mlcommons.org/benchmarks/training
---."MLPerf推理v3.1结果"。MLPerf 基准结果,2024 年。 https://mlcommons.org/benchmarks/inference
谷歌人工智能。"使用 TPU 扩展谷歌翻译"。谷歌人工智能博客,2024 年。 https://ai.googleblog.com/2024/01/scaling-google-translate-tpus.html
谷歌云。"云 TPU 定价"。谷歌云定价文档,2024 年。 https://cloud.google.com/tpu/pricing
Holz, David."Midjourney的基础设施演变"。VentureBeat 采访,2024 年 1 月。 https://venturebeat.com/ai/midjourney-infrastructure-evolution-interview/
谷歌"2024年环境报告"。谷歌可持续发展报告,2024。 https://sustainability.google/reports/environmental-report-2024/
Chowdhery, Aakanksha, et al. "PaLM: Scaling Language Modeling with Pathways." arXiv preprint, 2022. https://arxiv.org/abs/2204.02311
Covington、Paul、Jay Adams 和 Emre Sargin。"用于 YouTube 推荐的深度神经网络"。RecSys '16: Proceedings of the 10th ACM Conference on Recommender Systems (2016):191-198. https://doi.org/10.1145/2959100.2959190
谷歌云。"谷歌照片:使用 TPU 处理数十亿张图片"。谷歌云案例研究,2024 年。 https://cloud.google.com/customers/google-photos
Jumper、John 等人 "利用 AlphaFold 进行高精度蛋白质结构预测"。自然 596 (2021):583-589. https://doi.org/10.1038/s41586-021-03819-2
Spotify。"将 ML 基础设施迁移到谷歌云 TPU"。Spotify 工程,2024 年。 https://engineering.atspotify.com/2024/01/ml-infrastructure-tpu-migration/
Salesforce。"使用 Einstein GPT 的多云 AI 战略"。Salesforce 工程博客,2024 年。 https://engineering.salesforce.com/multi-cloud-ai-strategy-einstein-gpt/
Snap Inc."为 Snapchat 扩展人工智能基础设施"。Snap 工程,2024 年。 https://eng.snap.com/scaling-ai-infrastructure-2024
拥抱脸庞"为 TPU 优化开发工作流程"。Hugging Face 博客,2024 年。 https://huggingface.co/blog/tpu-optimization-workflows
Anthropic."在 TPU 上训练大型语言模型"。人类学研究,2024 年。 https://www.anthropic.com/research/training-llms-on-tpus
谷歌研究。"针对 TPU 的 XLA 编译优化"。谷歌人工智能博客,2024 年。 https://blog.research.google/2024/01/xla-compilation-optimizations-tpus.html
YouTube。"用于 TPU 训练的数据管道优化"。YouTube 工程博客,2024 年。 https://blog.youtube/engineering-and-developers/data-pipeline-optimization-tpu/
Midjourney."零停机迁移策略"。Midjourney 技术博客,2024 年。 https://www.midjourney.com/tech/zero-downtime-migration
Spotify."使用 Vertex AI 管理 1000 多个模型"。Spotify 技术博客,2024 年。 https://engineering.atspotify.com/2024/02/vertex-ai-model-management/
DeepMind."大规模 TPU 部署的监控基础设施"。DeepMind 工程公司,2024 年。 https://www.deepmind.com/blog/monitoring-large-scale-tpu-deployments
Dean、Jeff 等人,"用于训练神经网络的大规模分布式系统"。NIPS 2012. https://papers.nips.cc/paper/2012/file/6aca97005c68f1206823815f66102863-Paper.pdf
Snap Inc."热塑性聚氨酯培训的成本优化策略"。Snap 工程博客,2024 年。 https://eng.snap.com/cost-optimization-tpu-training
Anthropic."人工智能宪法:培训方法与基础设施"。人类学研究论文,2023。 https://www.anthropic.com/constitutional-ai-paper
谷歌"双子座:高能力多模态模型家族"。谷歌 DeepMind,2023 年。 https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Salesforce。"爱因斯坦 GPT:规模化企业人工智能"。Salesforce Research,2024 年。 https://www.salesforce.com/products/platform/einstein-gpt/
Snap Inc."总体拥有成本分析:用于 ML 工作负载的 TPU 与 GPU"。Snap Inc.技术报告,2024 年。 https://eng.snap.com/tco-analysis-tpu-gpu-2024
谷歌云。"每美元性能分析:TPU 与 GPU。"谷歌云白皮书,2024 年。 https://cloud.google.com/whitepapers/tpu-performance-analysis
谷歌云。"医疗保健 AI 初创公司利用 TPU 加速药物发现"。谷歌云案例研究,2024 年。 https://cloud.google.com/customers/healthcare-ai-drug-discovery