本地 LLM 硬件指南 2025:定价与规格
2025 年 8 月本地 LLM 部署的前景提供了多种硬件途径,从消费级 GPU 到企业数据中心解决方案,价格差异巨大,性能权衡严重影响部署决策。最重要的发现是,双 RTX 5090 配置现在与 70B 型号的 H100 性能相当,而成本仅为 H100 的 25%,从根本上改变了本地部署的经济性。
消费级硬件已经达到了可以进行大规模生产部署的性能阈值。RTX 5090 的 32GB VRAM 可以在单个 GPU 上运行量化后的 70B 模型,而配备 512GB 统一内存的苹果 M3 Ultra 甚至可以处理量化后的 671B 参数模型。像 B200 这样的企业级选择可提供卓越的性能,但面临着严重的供应限制和高昂的价格,对于许多用例来说,可能无法证明投资的合理性。
苹果硅规格改变了大型模型的可及性。
Mac Studio M3 Ultra 的定价和内存配置
Mac Studio M3 Ultra 的基本配置为 28 核 CPU 和 96GB 统一内存,起价 3999 美元。关键的 192GB 选项并不直接可用,用户必须选择 256GB 配置,需额外支付 1,500 美元,使总价达到 5,499 美元。最高 512GB 配置比 256GB 配置增加了 2400 美元,因此最高内存配置和 1TB 存储空间的价格为 9499 美元。完全满配 512GB 内存和 16TB 存储的系统售价为 14,099 美元。
事实证明,M3 Ultra 的819GB/s 内存带宽对于 LLM 推理至关重要,其性能优于数据必须穿越 PCIe 总线的传统 CPU+GPU 架构。32 核神经引擎每秒可进行 38 万亿次运算,同时支持 Thunderbolt 5,可为潜在的集群配置提供 120GB/s 的数据传输。
Mac Mini M4 集群提供经济实惠的可扩展性。
Mac Mini M4 的 10 核基本配置起价仅为 599 美元,内存容量为 16GB(可升级到 32GB)。售价 1399 美元的 M4 Pro 机型提供 24GB 基本内存,可扩展至 64GB,内存带宽为 273GB/s,大大提高了 LLM 性能。实际测试表明,配备 64GB 内存的单个 M4 Pro 运行 Qwen 2.5 32B 的速度为 11-12 token/秒,足以满足许多生产用例。
Exo Labs 演示了使用 4 台 Mac Mini M4(每台售价 599 美元)和一台 MacBook Pro M4 Max 进行有效集群,以不到 5,000 美元的价格实现了 496GB 的总统一内存。该设置以每秒 18 个字节的速度运行 Qwen 2.5 Coder-32B,以每秒 8 个字节的速度运行 Nemotron-70B。不过,单个高端 Mac Studios 的性能通常要优于 Mac Mini 集群,因为它们拥有更高的内存带宽,并减少了设备间的通信开销。
英伟达™(NVIDIA®)图形处理器的定价反映了市场的严重扭曲
RTX 5090 尽管建议零售价为 1,999 美元,但仍获得巨额溢价
RTX 5090 Founders Edition 的正式上市价格为 1999 美元,但 AIB 型号的市场价格从 2500 美元到 3800 美元不等。华硕 ROG Astral 上市时售价为 2799.99 美元,定制型号通常超过 3000 美元。该显卡的 32GB GDDR7 VRAM 具有 1,792 GB/s 的带宽,可在单 GPU 上运行带量化的 70B 参数模型。
性能基准测试表明,RTX 5090 在 Qwen2.5-Coder-7B (批量大小为 8)上实现了每秒 5,841 个标记,是 A100 80GB 性能的 2.6 倍。在 70B 模型中,双 RTX 5090 配置的评估速率为 27 个 token/秒,与 H100 性能相当,而成本仅为后者的一小部分。575W TDP 需要 1200W 以上的电源和强大的冷却解决方案。
企业级 GPU 的定价仍然很高。
通过渠道合作伙伴,H200 GPU 的单价为 40,000 美元至 55,000 美元,云计算费率为每小时 3.72 美元至 10.60 美元。其 141GB HBM3e 内存和 4.8 TB/s 带宽比 H100 内存多 76%,带宽高 43%。较新的 B200 虽然提供 192GB HBM3e 和 8 TB/s 带宽,但售价在 30,000 美元至 35,000 美元之间,不过供货仍然受到严重限制,交货期为 3-6 个月。
B100 定位为 H100 的直接替代品,内存容量为 192GB,TDP 为 700W,价格同样为 30,000 美元至 35,000 美元。据报道,到 2025 年,Blackwell 的所有产品都已售罄,台积电已将订单从 40,000 台增加到 60,000 台,以满足需求。
DGX 系统达到 50 万美元价位
配备 8 个 GPU 和 1,128GB 内存的 DGX H200 系统售价为 40 万至 50 万美元,而 Broadberry 最新推出的 DGX B200 售价为 515,410 美元。B200 系统可提供 72 PFLOPS FP8 训练和 144 PFLOPS FP4 推理性能,与 DGX H100 相比,训练性能提高了 3 倍,推理性能提高了 15 倍。
GB200 超级芯片结合了两个 B200 GPU 和一个 Grace CPU,单价为 60,000 至 70,000 美元。像拥有 72 个 GPU 的 GB200 NVL72 这样的机架规模系统,价格高达 300 万美元,主要针对超大规模部署。
内存要求决定了硬件选择策略。
未量化模型的内存需求超过了大多数单一系统。
以 FP16 精度运行70B 参数模型需要约 148GB VRAM,加上 20% 激活开销,总计 178GB。在 128K 上下文情况下,KV 缓存又增加了 39GB,使需求超过 200GB,这就需要多个 GPU(2× H100 80GB 或 4× A100 40GB)或积极的量化。
405B 参数模型的 FP16 基本模型需要 810GB,总需求接近 1TB,包括开销和 KV 缓存。这些模型需要在 8×H100 系统上进行多节点部署或 FP8 量化。671B Nemotron和 DeepSeek-R1 模型在 FP16 中需要 1.3-1.4 TB,需要数据中心规模的基础设施,或在 FP8 中积极量化到 700GB。
量化转变部署经济学。
通过 Q4_K_M,GGUF 量化可将内存减少 4 倍,同时保持大多数使用情况下可接受的质量。Q5_K_M 可将内存减少 3.2 倍,同时将性能降低到最低程度。这种格式在 CPU 和 Apple Silicon 上表现出色,是边缘部署的理想选择。
与 GPTQ 相比,AWQ(Activation-aware Weight Quantization,激活感知权重量化)可节省 4 倍内存,并能更好地保持质量,在 GPU 上的运行速度通常比 GPTQ 快 2 倍。它对保持响应质量至关重要的指令调整模型尤为有效。
在 H100/H200/B200 硬件上进行FP8 量化可减少 2 倍内存,同时将质量损失降至最低,因为许多较新的模型都是在 FP8 中进行原生训练的,这样就能在单个 8 GPU 节点上运行 405B 模型,同时保持接近全精度的性能。
不同用例的部署架构差异很大。
客户服务优先考虑的是响应时间而不是型号大小。
对于需要 2 秒以下响应的客户服务应用,在单个 A10G 或 L4 GPU(16GB VRAM)上使用 FP16 的Llama 3.1 8B可提供最佳性价比。对于更高质量的响应,在双 A100 80GB GPU 上使用 AWQ 4 位量化的 Llama 3.1 70B 可在每个 GPU 使用 35GB 的情况下提供企业级性能。
具有张量并行性和连续批处理功能的 vLLM 可最大限度地提高吞吐量,而预热和积极的 KV 缓存管理可最大限度地减少首次标记延迟。大多数成功的部署都采用了混合路由,将 70% 的查询发送到较小的模型,而将较大的模型留给复杂的请求。
代码生成需要大量的上下文窗口。
代码生成工作负载需要 32K-128K 上下文长度,从而大大提高了内存需求。在 4×A100 80GB GPU 上 FP16 的Llama 3.1 70B处理全上下文,为 KV 缓存预留了 40GB 以上的空间。专为代码任务训练的 DeepSeek-Coder 模型通常优于较大的通用模型。
事实证明,采用快速 NVMe 存储进行模型加载的单节点张量并行性最为有效。许多团队报告说,他们成功地使用 Mac Studio M3 Ultra 系统进行开发,利用 512GB 统一内存在生产部署前对更大的模型进行实验。
研究应用需要最高精度。
研究部署优先考虑精度而非成本,通常在 8×H100 系统上以 FP8 运行Llama 3.1 405B或DeepSeek-R1 671B用于高级推理任务。这些配置避免了激进的量化,以保持可重复性和最大的模型能力。
基础设施要求包括配备 InfiniBand 互连和企业级冷却系统的多节点设置。许多研究机构发现 Apple M3 Ultra 系统对实验非常有价值,因为 512GB 统一内存可以加载在其他地方需要多个 GPU 的模型。
内容创作要兼顾创造性和一致性。
内容生成通常使用 FP16 中的Llama 3.1 70B,以实现创意和一致性的平衡,或使用Mixtral 8x7B和 GPTQ 4 位量化,以实现经济高效的批量处理。更高的采样温度和多样化的提示工程可鼓励创意输出,同时保持品牌声音的一致性。
突发容量规划至关重要,因为创意工作流程经常会出现极端的使用高峰。许多部署都采用了基于队列的架构,可以根据需求从 1 个 GPU 扩展到 10 个以上 GPU。
总拥有成本揭示了令人惊讶的盈亏平衡点。
不同级别的硬件购置成本差异很大。
消费级 GPU 的价格从 RTX 4090 的 1,600 美元至 2,000 美元不等,到 RTX 5090 的 2,000 美元至 3,800 美元不等,但供应仍然存在问题。企业级 GPU 的价格为:H100 为 25,000 美元至 30,000 美元,B200 为 30,000 美元至 40,000 美元。苹果 M3 Ultra 系统的内存配置很有意义,价格在 7,000 美元至 10,000 美元之间。
云实例提供即时可用性,RTX 5090 为 0.89 美元/小时,H100 为 1.90 美元-3.50 美元/小时,B200 系统为 4.00 美元-6.00 美元 /小时。H100 的价格从 2025 年初的 8 美元/小时大幅下降,反映了可用性和竞争的改善。
运营成本不仅限于硬件。
功耗范围从 Apple M3 Ultra 系统的 215W 到 B200 GPU 的 1000W,电费为 0.10-0.30 美元/千瓦时。冷却会增加 15-30% 的开销,而多 GPU 设置的网络基础设施需要 10Gbps 以上的连接。MLOps 工程师的员工成本平均为每年 135,000 美元,对于受监管的行业,合规成本增加 5-15%。
自托管与 API 使用的盈亏平衡点通常在每天 200 万个代币左右,适当的硬件利用率超过 70% 对成本效益至关重要。一家金融科技公司采用 Claude Haiku 加自托管 7B 模型的混合方法,将 GPT-4o Mini 的月成本从 4.7 万美元降至 8 万美元,成本降低了 83%。
性能基准揭示了平台的优势。
最新的推理速度有利于更新的架构。
在Qwen2.5-Coder-7B上,RTX 5090实现了每秒5,841个代币的速度,在NLP任务上比RTX 4090提高了72%。Qwen2-0.5B等小型模型达到了惊人的65,000+ tokens/秒,为简单任务带来了巨大的吞吐量。
与 H100 相比,B200 系统的推理速度提高了 15 倍,而 H200 则通过增加内存带宽将速度提高了 2 倍。Apple M3 Ultra 在 LLaMA-3 8B Q4_K_M 上实现了 76 tokens/second 的速度,即将推出的 M4 Max 预计将达到 96-100 tokens/second。
框架的选择对性能有重大影响。
vLLM 0.6.0 与早期版本相比,吞吐量提高了 2.7 倍,延迟降低了 5 倍,在 H100 上的 Llama 8B 实现了 2300-2500 token/秒的速度。其 PagedAttention 将内存碎片减少了 60-80%,这对生产部署至关重要。
Llama.cpp 可为单个请求提供 93.6-100.2% 的 vLLM 性能,同时提供出色的 CPU 和 Apple Silicon 优化。其丰富的量化选项和较低的内存开销使其成为边缘部署的理想选择。
能效指标显著提高。
采用 vLLM 的现代 H100 系统在 Llama-3.3-70B FP8 中实现了每个令牌 0.39 焦耳的功耗,效率比通常引用的 ChatGPT 估计值高出 120 倍。RTX 5090 的功耗比 RTX 4090 高出 28%,而性能却提高了 72%,整体效率显著提高。
FP8 和 FP4 量化可将功耗降低 30-50%,同时保持可接受的质量。通过 vLLM 和 TensorRT-LLM 进行的软件优化提高了效率,一些部署报告称,与 2023 基线相比,效率提高了 10 倍。
多节点部署实现了前沿模型的执行。
硬件需求随模型大小呈指数级增长。
单 GPU 可有效处理 80GB VRAM 以下的机型。通过 NVLink 连接 2-8 个 GPU 的单节点多 GPU 配置在总 VRAM 达到 640GB 时(8 倍于 H100 限制)运行良好。超过这一上限,就必须进行多节点部署,这将带来巨大的复杂性和通信开销。
对于 70B 机型,4 台 Mac Minis M4 可以通过集群提供足够的内存,尽管单台 Mac Studio M3 Ultra 通常能提供更好的性能。405B 机型始终需要在 FP16 中进行分布式部署,而 671B 机型则需要数据中心规模的基础架构,除非大力量化。
并行策略可优化不同的方案。
张量并行将每个层分割到多个 GPU 上,通过并行计算提供低延迟。这种方法适用于单个节点,在单个节点中,NVLink 等高带宽互连可最大限度地减少通信开销。配置时,tensor_parallel_size 应等于每个节点的 GPU 数量,以获得最佳性能。
流水线并行将连续的层分布在各个节点上,减少了节点间的通信需求。虽然这会带来流水线气泡,降低自回归推理的效率,但它能在较慢的互连中进行扩展,并支持不均衡的 GPU 内存配置。
vLLM 采用的混合方法在节点内使用张量并行,在节点间使用流水线并行,从而最大限度地提高了本地带宽和跨节点效率。
立即部署的实用建议
对于日处理量低于 100 万个令牌的组织,我建议继续与 API 提供商合作,同时监控使用量的增长。自托管的复杂性和资金要求并不能证明在这种规模下所能节省的费用是合理的。
每天处理1,000 万至 1,000 万个代币的团队应考虑使用单个 RTX 4090 或 RTX 5090 运行量化模型。这一最佳选择兼顾了资本投资和运营节省,通常可在 6-12 个月内实现投资回报。
每天处理超过 1000 万个代币的企业可受益于双 RTX 5090 设置或预留容量的 H100 云实例。实施混合路由策略,将简单查询发送到较小的模型,同时为复杂请求保留较大的模型,从而将成本降低 10-30%。
有合规要求的组织应优先考虑部署内部部署的 H100/H200,尽管费用较高,因为其控制和审计功能可以证明在合规相关的基础设施和流程方面 15%的额外开支是合理的。
研究团队和开发人员从配备 512GB 内存的Apple M3 Ultra 系统中获益最多,可以对模型进行实验,否则就需要昂贵的多 GPU 设置。虽然推理速度落后于英伟达™(NVIDIA®)解决方案,但统一内存架构为模型开发和测试提供了独特优势。
参考资料
核心模型文件
DeepSeek AI."DeepSeek-V3 技术报告》,arXiv 预印本,2024 年 12 月。 https://arxiv.org/html/2412.19437v1.
元。"The Llama 4 Herd:本机多模态人工智能创新新时代的开端"。Meta AI 博客,2025 年 4 月。 https://ai.meta.com/blog/llama-4-multimodal-intelligence/.
谷歌开发人员。"介绍 Gemma 3:开发者指南"。谷歌开发者博客,2025 年。 https://developers.googleblog.com/en/introducing-gemma3/.
阿里巴巴云。"Qwen3:更深思考,更快行动"。Qwen(博客)。2025 年 8 月 13 日访问。 https://qwenlm.github.io/blog/qwen3/.
硬件和基础设施
英伟达"DGX H200。英伟达数据中心。2025 年 8 月 13 日访问。 https://www.nvidia.com/en-us/data-center/dgx-h200/.
英伟达™(NVIDIA®)开发人员。"英伟达™(NVIDIA®)Blackwell 平台在 MLPerf Inference v4.1 中刷新 LLM Inference 记录"。英伟达™(NVIDIA®)技术博客,2025年。 https://developer.nvidia.com/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/.
创意策略"配备 M3 Ultra 的 Apple Mac Studio 评论:终极 AI 开发者工作站"。创意战略》,2025 年。 https://creativestrategies.com/mac-studio-m3-ultra-ai-workstation-review/.
服务框架
vLLM."vLLM V1:vLLM 核心架构的重大升级。"vLLM 博客,2025 年 1 月 27 日。 https://blog.vllm.ai/2025/01/27/v1-alpha-release.html.
英伟达"TensorRT-LLM"。GitHub 存储库。GitHub, 2025. https://github.com/NVIDIA/TensorRT-LLM.
拥抱的脸"为文本生成推理引入多后端(TRT-LLM、vLLM)支持"。Hugging Face 博客,2025 年。 https://huggingface.co/blog/tgi-multi-backend.
市场分析和案例研究
Menlo Ventures。"2025年年中法律硕士市场更新:基础模式格局+经济学"。Menlo Ventures,2025 年。 https://menlovc.com/perspective/2025-mid-year-llm-market-update/.
ZenML."生产中的 LLMOps:457 个有效案例研究"。ZenML 博客,2025 年。 https://www.zenml.io/blog/llmops-in-production-457-case-studies-of-what-actually-works.
实施指南
红帽公司。"使用量化 DeepSeek-R1 模型的部署就绪推理"。Red Hat Developer,2025 年 3 月。 https://developers.redhat.com/articles/2025/03/03/deployment-ready-reasoning-quantized-deepseek-r1-models.
Yermagambet, Rasul."利用 Prometheus 和 Grafana 监控用于 LLM 培训的多节点集群"。媒体,2025 年。 https://medium.com/@rasul.yermagambet/monitoring-multi-node-clusters-for-llm-training-with-prometheus-and-grafana-bea82da7f1db.
新堆栈"vLLM简介:高性能LLM服务引擎"。The New Stack,2025 年。 https://thenewstack.io/introduction-to-vllm-a-high-performance-llm-serving-engine/.