项目 16：硬件精算：显存带宽、算力与硬件预算（Hardware Budget）

工程师的直觉：为什么你必须会算硬件账

在 LLM 领域，一个资深工程师与新手的区别在于：当看到一个 70B 模型和一张 A100 显卡时，前者能立刻算出这个系统每秒能跑多少个 Token。这种能力不是来自经验，而是来自对硬件底层的数学建模。

项目 16 的任务是建立一套完整的硬件预算表，理解**算力（Compute）与带宽（Bandwidth）**之间的平衡博弈。

第一阶段：静态资产核算——模型到底占多少显存

模型加载后，显存被分为三大块：

模型权重（Weights）：
- FP16/BF16：参数量 $\times 2$ 字节。
- INT8：参数量 $\times 1$ 字节。
- INT4：参数量 $\times 0.5$ 字节。 例：70B 模型在 FP16 下占 140GB，这意味着至少需要 2 张 80GB 的 A100 才能加载。
优化器状态与梯度（训练专用）：
- 训练时的显存压力是推理的 4-8 倍。Adam 优化器会为每个参数存两份动量，加上梯度和 FP32 副本身。
KV Cache（推理专用）：
- 这是一个动态资产。随着上下文变长和并发增加，它会迅速吞噬剩余显存。

第二阶段：动态性能建模——Roofline Model

性能不是无限增长的，它受限于两个物理极值：

1. 算力上限（Compute Bound）

如果你的计算任务非常密集（如 Prefill 阶段），瓶颈在于 GPU 的 Tensor Core 处理速度。 $Theoretical_Latency = \frac{Total_FLOPs}{GPU_Peak_FLOPS}$

2. 带宽上限（Memory Bound）

如果你的任务涉及大量数据搬运（如 Decode 阶段），瓶颈在于显存到核心的传输速度。 $Theoretical_Latency = \frac{Total_Bytes_to_Move}{Memory_Bandwidth}$

核心结论： 在 Decode（逐字生成）阶段，模型权重必须在生成每个词时都从显存读一遍。对于 A100 (2TB/s 带宽) 和 70B 模型 (140GB 权重)： $Max_Tokens/s = \frac{2000 GB/s}{140 GB} \approx 14.2$ Tokens/s。这意味着无论你的 GPU 算力有多强，受限于带宽，单卡生成的物理极限就是每秒 14 个词。

第三阶段：多卡互联与通信开销

当单卡放不下模型时，我们需要张量并行（Tensor Parallel）。

通信税：多卡之间需要通过 NVLink 或 InfiniBand 交换数据。
All-Reduce 代价：每一层计算完，卡与卡之间都要进行一次同步。如果网络带宽（如 400Gbps）远低于显存带宽，那么增加 GPU 反而可能让生成变慢。

第四阶段：硬件预算表的构建

你需要建立一个包含以下字段的精算表：

指标	计算公式	典型值 (Llama-3-8B on A100)
权重大小	Params * Bytes_per_param	16 GB (FP16)
KV Cache (per token)	2 * Layers * Hidden * Bytes	0.5 MB
算力利用率 (MFU)	Actual_FLOPS / Peak_FLOPS	30% - 55%
并发极限	(Total_VRAM - Weight) / KV_per_token	取决于 Context 长度

工程启示：如何根据预算选型

高并发场景：瓶颈在显存总量。应优先考虑 KV Cache 量化（INT8/FP8）和 PagedAttention，增加 Batch Size 以摊薄权重读取成本。
长文本场景：瓶颈在显存总量和算子效率。必须开启 FlashAttention。
低延迟场景：瓶颈在显存带宽。应优先选择显存带宽更高的硬件（如 H100），或使用更激进的权重量化（INT4）。

总结

硬件预算是 LLM 系统设计的“底牌”。理解了项目 16，你就不会盲目追求增加显卡数量，而是能够精准定位系统瓶颈是在 CPU 内存、显存带宽、算力核心还是网络互联。这种“心中有数”的工程直觉，是构建可扩展、高性价比 AI 服务的核心竞争力。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:项目 16：硬件精算：显存带宽、算力与硬件预算（Hardware Budget）

本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-16-hardware-budget/

本文最后一次更新为天前，文章中的某些内容可能已过时！