記憶體頻寬瓶頸

記憶體頻寬瓶頸 指系統性能主要受限於資料從記憶體搬到計算單元的速度,而不是計算單元本身的 FLOPS。

在 LLM 推論中的角色

來源主張,在 LLM推論 的 decode phase,每次只生成一個 token,但仍需要讀取大量模型權重與 KV Cache。這使 GPU 計算單元可能等待資料,形成 memory bandwidth bound。

為什麼投資上重要

若 LLM 推論受 memory bandwidth 與 KV Cache 限制,則 AI hardware demand 不只來自 GPU compute,也來自:

  • HBM 與高頻寬記憶體;
  • advanced packaging / CoWoS 將 accelerator 與 HBM 近距離整合;
  • CXL MemoryLPDDR高階 SSD 等容量延伸與 offload 層;
  • Processing-In-Memory 等降低資料搬移的架構;
  • 推論 serving 軟體如 continuous batching、quantization、FlashAttention、KV cache management。

Caveat

不是所有推論 workload 都同樣 memory-bound。Prefill、大 batch、短上下文、長上下文、MoE、speculative decoding、不同 quantization 與不同 GPU 架構都會改變瓶頸位置。

量化與硬體升級

新來源補充 memory bandwidth bottleneck 的處理方式:提高 GPU/TPU/HBM 頻寬與容量,並透過權重/KV Cache 量化降低每 token 需要搬移的資料量。

Roadmap 中的記憶體牆解法

新來源補充未來解法包括 HBM4、TPU 8i SRAM/HBM、LPU on-chip SRAM、光學互聯與量化;但 35x/20x/80% 等數字均待核驗。