LLM 推論
LLM推論 是大型語言模型完成訓練後,根據輸入 prompt 產生輸出的過程。與訓練不同,推論通常只做 forward pass,不更新模型權重。
基本流程
prompt
→ tokenization
→ embedding
→ Transformer layers
→ next-token probability distribution
→ decode next token
→ 把新 token 接回輸入,重複直到完成這個流程通常具有自迴歸特性:模型每次生成一個 token,下一步必須依賴前一步輸出。因此推論延遲常受順序性限制,無法像某些訓練矩陣運算那樣完全平行化。
Prefill vs Decode
- Prefill phase:一次處理使用者輸入 prompt,建立初始狀態與 KV Cache。
- Decode phase:逐 token 生成輸出。來源主張主要瓶頸常集中在 decode phase,尤其是 memory bandwidth 與 KV Cache。
為什麼與記憶體供應鏈有關
LLM 推論不是只看 FLOPS。Decode 階段常需要反覆讀取模型權重與 KV Cache,因此 記憶體頻寬瓶頸、VRAM 容量、HBM 供應、CXL/LPDDR/SSD offload 與 PIM 等都會影響 serving cost 與 tokens per second。
相關頁
推論優化技術
新來源補充 LLM 推論不只由模型決定,還高度依賴 serving stack:vLLM、TensorRT-LLM、continuous batching、PagedAttention、推測解碼、量化與 routing 都會影響 latency、throughput 與成本。
2026-2027 roadmap
新來源主張 2026-2027 年 LLM 推論會走向硬體、推理引擎、演算法、模型架構與 agentic workload 的混合系統;需以官方 roadmap 與 production benchmark 核驗。