LLM 推論 2026-2027 技術路線圖

核心結論

來源主張 2026-2027 年 LLM推論 將從「優化單一瓶頸」走向「混合系統」:硬體、記憶體、推理引擎、演算法、模型架構與雲端調度同時演進。

硬體:Rubin / Rubin Ultra、TPU 8i、HBM4、on-chip SRAM、LPU、光學互聯
記憶體:KV Cache quantization、HBM + SRAM + flash/network tier、PB/EB context storage 主張
系統:Prefill-Decode Disaggregation、Dynamo、GKE Inference Gateway、llm-d
演算法:speculative decoding、DFlash、continuous batching
模型:MoE、稀疏注意力、原生 KV Cache 優化、多模態/agentic workload

與既有瓶頸的連結

  • 記憶體頻寬瓶頸:靠 HBM4、on-chip SRAM、TPU/GPU memory bandwidth、LPU 類 decode accelerator、量化降低搬移量。
  • KV Cache 成長:靠更大容量、分層儲存、KV Cache quantization、Prefill-Decode Disaggregation 與 serving stack 管理。
  • 自迴歸順序性:靠 推測解碼、DFlash、Multi-Token Prediction 與 continuous batching。
  • Agentic workload:長上下文、多輪工具調用與多代理任務會提高 KV Cache、memory tiering 與 p99 latency 壓力。

公司 roadmap caveat

來源把 NVIDIAGoogleMeta PlatformsOpenAIAnthropic 的未來計劃放入同一條 roadmap,但大部分規格、時程與採用狀態未附 citation。這些內容適合作為研究假說與核驗清單,而不是確定事實。

對投資分析的含義

  • 若 roadmap 成立,LLM 推論成本下降可能擴大 Token Economics Flywheel
  • 更便宜推論不必然降低上游需求:agentic AI、long-context 與多模態可能吃掉效率提升。
  • 硬體供應商、雲端平台、推理引擎、模型公司與記憶體供應鏈的價值分配仍需觀察。
  • PB/EB context storage、flash network、LPU 與 on-chip SRAM 若成熟,可能改變 HBM/HBF/CXL/SSD 的相對角色。

待核驗

  • Rubin/Rubin Ultra、TPU 8i、Groq LPU、llm-d、DFlash、Avocado、GPT-OSS 的官方資料與時間線。
  • 所有 20x、35x、80%、40-50%、百萬 token 等 benchmark 的實測條件。
  • 「Groq 3 LPU 由 NVIDIA 宣布」與「NVIDIA Groq LPU」的歸屬是否錯誤。
  • Prefill/decode disaggregation 對 p50/p99 latency、GPU utilization 與資料中心網路的實際影響。