LLM 推論優化從單點技術轉向系統堆疊

主張

來源主張,2026 年左右的 LLM推論 優化已從單一技術,轉向「硬體 + 量化 + 分頁管理 + 推測加速 + continuous batching」的系統性優化。

支持邏輯

  • 記憶體頻寬瓶頸需要硬體與量化共同處理。
  • KV Cache 成長需要 PagedAttention、offload、tiered storage、MQA/GQA 與 cache quantization。
  • 自迴歸順序性需要推測解碼、draft model、MTP/EAGLE 類技術。
  • 多使用者 serving 需要 continuous batching、routing 與 scheduler。

需要核驗

  • 各技術在 production workload 的端到端改善幅度。
  • 成本下降是否來自硬體進步、軟體進步、模型架構變化,或 workload mix。
  • 推論成本下降是否足以抵銷 token demand growth。
  • 不同公司是否真的採用來源列出的引擎與技術。

反證條件

  • 真實生產環境主要仍由單一瓶頸主導,系統堆疊的複合收益有限。
  • 量化、offload 或推測解碼造成品質、latency tail 或運維複雜度問題。
  • 需求彈性使成本下降後總 capex / memory demand 反而上升。

Roadmap 強化

新來源強化此主張:未來 roadmap 同時涵蓋 Rubin/TPU/LPU、Dynamo/GKE/llm-d、TurboQuant/DFlash、MoE/稀疏注意力與 agentic workflow。