推測解碼

推測解碼(Speculative Decoding)是加速自迴歸 LLM 生成的方法。基本想法是用較小或較快的 draft model 先預測多個未來 token,再由大型 target model 驗證;若驗證通過,一次接受多個 token。

解決的問題

LLM推論 decode phase 的順序性限制使模型通常一次生成一個 token。推測解碼試圖把部分步驟平行化或批次化,以降低 latency、提高 tokens per second。

來源主張

來源主張 TensorRT-LLM 支援 EAGLE-3、Multi-Token Prediction、P-EAGLE 等推測解碼變體,可達 2-3.6 倍加速,並整合至 Blackwell GPU 平台。此數字需核驗 benchmark 條件、模型、硬體、acceptance rate 與端到端成本。

Caveat

推測解碼不一定免費:draft model 也有計算成本;若 acceptance rate 低,實際收益可能下降。它也可能與量化、batching、cache management 產生複雜交互。

DFlash 與 roadmap

新來源主張 Google 支援 diffusion-style speculative decoding / DFlash,並在 TPU v5p 達平均 3.13 倍、峰值近 6 倍 token 生成加速;此 benchmark 需核驗。