LLM 推論優化從單點技術轉向系統堆疊

主張

來源主張，2026 年左右的 LLM推論優化已從單一技術，轉向「硬體 + 量化 + 分頁管理 + 推測加速 + continuous batching」的系統性優化。

記憶體頻寬瓶頸需要硬體與量化共同處理。
KV Cache 成長需要 PagedAttention、offload、tiered storage、MQA/GQA 與 cache quantization。
自迴歸順序性需要推測解碼、draft model、MTP/EAGLE 類技術。
多使用者 serving 需要 continuous batching、routing 與 scheduler。

新來源強化此主張：未來 roadmap 同時涵蓋 Rubin/TPU/LPU、Dynamo/GKE/llm-d、TurboQuant/DFlash、MoE/稀疏注意力與 agentic workflow。