LLM 推論

LLM推論是大型語言模型完成訓練後，根據輸入 prompt 產生輸出的過程。與訓練不同，推論通常只做 forward pass，不更新模型權重。

基本流程

prompt
→ tokenization
→ embedding
→ Transformer layers
→ next-token probability distribution
→ decode next token
→ 把新 token 接回輸入，重複直到完成

這個流程通常具有自迴歸特性：模型每次生成一個 token，下一步必須依賴前一步輸出。因此推論延遲常受順序性限制，無法像某些訓練矩陣運算那樣完全平行化。

Prefill phase：一次處理使用者輸入 prompt，建立初始狀態與 KV Cache。
Decode phase：逐 token 生成輸出。來源主張主要瓶頸常集中在 decode phase，尤其是 memory bandwidth 與 KV Cache。

LLM 推論不是只看 FLOPS。Decode 階段常需要反覆讀取模型權重與 KV Cache，因此記憶體頻寬瓶頸、VRAM 容量、HBM 供應、CXL/LPDDR/SSD offload 與 PIM 等都會影響 serving cost 與 tokens per second。

新來源補充 LLM 推論不只由模型決定，還高度依賴 serving stack：vLLM、TensorRT-LLM、continuous batching、PagedAttention、推測解碼、量化與 routing 都會影響 latency、throughput 與成本。

新來源主張 2026-2027 年 LLM 推論會走向硬體、推理引擎、演算法、模型架構與 agentic workload 的混合系統；需以官方 roadmap 與 production benchmark 核驗。