LLM 推論

LLM推論 是大型語言模型完成訓練後,根據輸入 prompt 產生輸出的過程。與訓練不同,推論通常只做 forward pass,不更新模型權重。

基本流程

prompt
→ tokenization
→ embedding
→ Transformer layers
→ next-token probability distribution
→ decode next token
→ 把新 token 接回輸入,重複直到完成

這個流程通常具有自迴歸特性:模型每次生成一個 token,下一步必須依賴前一步輸出。因此推論延遲常受順序性限制,無法像某些訓練矩陣運算那樣完全平行化。

Prefill vs Decode

  • Prefill phase:一次處理使用者輸入 prompt,建立初始狀態與 KV Cache
  • Decode phase:逐 token 生成輸出。來源主張主要瓶頸常集中在 decode phase,尤其是 memory bandwidth 與 KV Cache。

為什麼與記憶體供應鏈有關

LLM 推論不是只看 FLOPS。Decode 階段常需要反覆讀取模型權重與 KV Cache,因此 記憶體頻寬瓶頸、VRAM 容量、HBM 供應、CXL/LPDDR/SSD offload 與 PIM 等都會影響 serving cost 與 tokens per second。

相關頁

推論優化技術

新來源補充 LLM 推論不只由模型決定,還高度依賴 serving stack:vLLMTensorRT-LLM、continuous batching、PagedAttention推測解碼、量化與 routing 都會影響 latency、throughput 與成本。

2026-2027 roadmap

新來源主張 2026-2027 年 LLM 推論會走向硬體、推理引擎、演算法、模型架構與 agentic workload 的混合系統;需以官方 roadmap 與 production benchmark 核驗。