LLM 推論優化技術與大型科技公司作法
摘要
這份使用者提供的研究筆記延伸 2026-05-18-LLM推論瓶頸與Decode階段記憶體限制:前一筆說明 LLM推論 常卡在 decode phase 的 記憶體頻寬瓶頸、KV Cache 與自迴歸順序性;本筆則整理大型科技公司如何用硬體、軟體與演算法疊加處理:
- 記憶體頻寬瓶頸:新 GPU/TPU、HBM 容量/頻寬、權重與 KV Cache 量化。
- KV Cache 成長:PagedAttention、tiered storage/offloading、MQA/GQA、vLLM、Google GKE 分層 KV Cache、NVIDIA Dynamo/VAST Data。
- 自迴歸順序性:推測解碼、draft model、EAGLE-3、MTP、P-EAGLE、continuous batching。
- 公司作法:來源主張 NVIDIA、Google、OpenAI、Anthropic、Meta Platforms 分別以硬體、推理引擎、雲端 serving 與模型/社群生態推動優化。
來源可信度註記
本筆記未附 NVIDIA / Google / OpenAI / Anthropic / Meta 官方文件、論文、benchmark 或產品公告連結,因此以下精確敘述均保存為「來源主張 / 待核驗」:
- NVIDIA 2025 年推出 Blackwell 系列 GPU,記憶體頻寬可達 4.8 TB/s,且大幅超越 H100。
- TensorRT-LLM 整合 NVFP4 KV Cache 量化,KV Cache 占用相較 FP8 減少約 50%,context length 與 batch size 加倍,準確度損失不到 1%。
- Google 2026 年初發布 TurboQuant,將 KV Cache 壓縮至每值 3-bit,記憶體占用減少 6 倍以上,attention 計算最高加速 8 倍。
- TurboQuant 已整合至 GKE Inference Gateway。
- vLLM 已被多數大廠整合;PagedAttention 將 KV Cache waste 由 60%-80% 降至 <4%,吞吐量提升 2-4 倍。
- NVIDIA TensorRT-LLM 與 Google Cloud 皆支援 PagedAttention。
- Google 在 GKE 實作 HBM → CPU RAM → local SSD 分層 KV Cache,命中率大幅提高。
- NVIDIA Dynamo + VAST Data 可將 KV Cache offload 至網路儲存,GPU 利用率提升 90%,TTFT 加快 20 倍。
- TensorRT-LLM 支援 EAGLE-3、MTP、P-EAGLE,推測解碼可達 2-3.6 倍加速,且整合至 Blackwell。
- Google 在 TPU 上結合擴散式推測解碼與雙快取架構。
- OpenAI / Anthropic API 後端廣泛採用 vLLM / TensorRT-LLM 與 continuous batching。
- 2026 年 LLM 推論成本已大幅下降,context length 可輕鬆擴展至數十萬甚至百萬 token。
消化後的 Wiki 更新
- 新增 LLM推論優化技術堆疊。
- 新增 PagedAttention、推測解碼、vLLM、TensorRT-LLM。
- 新增 大型科技公司如何解決LLM推論瓶頸。
- 新增 LLM推論優化從單點技術轉向系統堆疊。
- 更新 LLM推論瓶頸、KV Cache、記憶體頻寬瓶頸、AI推論記憶體替代技術、AI記憶體階層化、AI推論記憶體生產可擴展性、NVIDIA、Google、OpenAI、Anthropic、Meta Platforms 與相關雲端/記憶體風險頁。
待追問 / 待核驗
- 各 benchmark 的原始來源、硬體、模型、batch size、context length、precision 與 baseline。
- vLLM / PagedAttention、TensorRT-LLM、Dynamo、TurboQuant、GKE Inference Gateway 的實際採用狀態。
- OpenAI / Anthropic API 後端是否公開使用 vLLM / TensorRT-LLM。
- 推測解碼在生產工作負載中的實際 acceptance rate、latency 與 cost trade-off。
- KV Cache offload 到 SSD/網路儲存對 p99 latency 的影響。
- 2026 年推論成本下降是否足以抵銷 token demand growth。
來源
- 原文保存於
raw/Clippings/2026-05-18-LLM推論優化技術與大型科技公司作法.md。