LLM 推論 2026-2027 技術路線圖
核心結論
來源主張 2026-2027 年 LLM推論 將從「優化單一瓶頸」走向「混合系統」:硬體、記憶體、推理引擎、演算法、模型架構與雲端調度同時演進。
硬體:Rubin / Rubin Ultra、TPU 8i、HBM4、on-chip SRAM、LPU、光學互聯
記憶體:KV Cache quantization、HBM + SRAM + flash/network tier、PB/EB context storage 主張
系統:Prefill-Decode Disaggregation、Dynamo、GKE Inference Gateway、llm-d
演算法:speculative decoding、DFlash、continuous batching
模型:MoE、稀疏注意力、原生 KV Cache 優化、多模態/agentic workload與既有瓶頸的連結
- 記憶體頻寬瓶頸:靠 HBM4、on-chip SRAM、TPU/GPU memory bandwidth、LPU 類 decode accelerator、量化降低搬移量。
- KV Cache 成長:靠更大容量、分層儲存、KV Cache quantization、Prefill-Decode Disaggregation 與 serving stack 管理。
- 自迴歸順序性:靠 推測解碼、DFlash、Multi-Token Prediction 與 continuous batching。
- Agentic workload:長上下文、多輪工具調用與多代理任務會提高 KV Cache、memory tiering 與 p99 latency 壓力。
公司 roadmap caveat
來源把 NVIDIA、Google、Meta Platforms、OpenAI、Anthropic 的未來計劃放入同一條 roadmap,但大部分規格、時程與採用狀態未附 citation。這些內容適合作為研究假說與核驗清單,而不是確定事實。
對投資分析的含義
- 若 roadmap 成立,LLM 推論成本下降可能擴大 Token Economics Flywheel。
- 更便宜推論不必然降低上游需求:agentic AI、long-context 與多模態可能吃掉效率提升。
- 硬體供應商、雲端平台、推理引擎、模型公司與記憶體供應鏈的價值分配仍需觀察。
- PB/EB context storage、flash network、LPU 與 on-chip SRAM 若成熟,可能改變 HBM/HBF/CXL/SSD 的相對角色。
待核驗
- Rubin/Rubin Ultra、TPU 8i、Groq LPU、llm-d、DFlash、Avocado、GPT-OSS 的官方資料與時間線。
- 所有 20x、35x、80%、40-50%、百萬 token 等 benchmark 的實測條件。
- 「Groq 3 LPU 由 NVIDIA 宣布」與「NVIDIA Groq LPU」的歸屬是否錯誤。
- Prefill/decode disaggregation 對 p50/p99 latency、GPU utilization 與資料中心網路的實際影響。