LLM 推論優化技術與大型科技公司作法

摘要

這份使用者提供的研究筆記延伸 2026-05-18-LLM推論瓶頸與Decode階段記憶體限制：前一筆說明 LLM推論常卡在 decode phase 的記憶體頻寬瓶頸、KV Cache 與自迴歸順序性；本筆則整理大型科技公司如何用硬體、軟體與演算法疊加處理：

記憶體頻寬瓶頸：新 GPU/TPU、HBM 容量/頻寬、權重與 KV Cache 量化。
KV Cache 成長：PagedAttention、tiered storage/offloading、MQA/GQA、vLLM、Google GKE 分層 KV Cache、NVIDIA Dynamo/VAST Data。
自迴歸順序性：推測解碼、draft model、EAGLE-3、MTP、P-EAGLE、continuous batching。
公司作法：來源主張 NVIDIA、Google、OpenAI、Anthropic、Meta Platforms 分別以硬體、推理引擎、雲端 serving 與模型/社群生態推動優化。

本筆記未附 NVIDIA / Google / OpenAI / Anthropic / Meta 官方文件、論文、benchmark 或產品公告連結，因此以下精確敘述均保存為「來源主張 / 待核驗」：

NVIDIA 2025 年推出 Blackwell 系列 GPU，記憶體頻寬可達 4.8 TB/s，且大幅超越 H100。
TensorRT-LLM 整合 NVFP4 KV Cache 量化，KV Cache 占用相較 FP8 減少約 50%，context length 與 batch size 加倍，準確度損失不到 1%。
Google 2026 年初發布 TurboQuant，將 KV Cache 壓縮至每值 3-bit，記憶體占用減少 6 倍以上，attention 計算最高加速 8 倍。
TurboQuant 已整合至 GKE Inference Gateway。
vLLM 已被多數大廠整合；PagedAttention 將 KV Cache waste 由 60%-80% 降至 <4%，吞吐量提升 2-4 倍。
NVIDIA TensorRT-LLM 與 Google Cloud 皆支援 PagedAttention。
Google 在 GKE 實作 HBM → CPU RAM → local SSD 分層 KV Cache，命中率大幅提高。
NVIDIA Dynamo + VAST Data 可將 KV Cache offload 至網路儲存，GPU 利用率提升 90%，TTFT 加快 20 倍。
TensorRT-LLM 支援 EAGLE-3、MTP、P-EAGLE，推測解碼可達 2-3.6 倍加速，且整合至 Blackwell。
Google 在 TPU 上結合擴散式推測解碼與雙快取架構。
OpenAI / Anthropic API 後端廣泛採用 vLLM / TensorRT-LLM 與 continuous batching。
2026 年 LLM 推論成本已大幅下降，context length 可輕鬆擴展至數十萬甚至百萬 token。

各 benchmark 的原始來源、硬體、模型、batch size、context length、precision 與 baseline。
vLLM / PagedAttention、TensorRT-LLM、Dynamo、TurboQuant、GKE Inference Gateway 的實際採用狀態。
OpenAI / Anthropic API 後端是否公開使用 vLLM / TensorRT-LLM。
推測解碼在生產工作負載中的實際 acceptance rate、latency 與 cost trade-off。
KV Cache offload 到 SSD/網路儲存對 p99 latency 的影響。
2026 年推論成本下降是否足以抵銷 token demand growth。