推測解碼

推測解碼（Speculative Decoding）是加速自迴歸 LLM 生成的方法。基本想法是用較小或較快的 draft model 先預測多個未來 token，再由大型 target model 驗證；若驗證通過，一次接受多個 token。

解決的問題

LLM推論 decode phase 的順序性限制使模型通常一次生成一個 token。推測解碼試圖把部分步驟平行化或批次化，以降低 latency、提高 tokens per second。

來源主張

來源主張 TensorRT-LLM 支援 EAGLE-3、Multi-Token Prediction、P-EAGLE 等推測解碼變體，可達 2-3.6 倍加速，並整合至 Blackwell GPU 平台。此數字需核驗 benchmark 條件、模型、硬體、acceptance rate 與端到端成本。

Caveat

推測解碼不一定免費：draft model 也有計算成本；若 acceptance rate 低，實際收益可能下降。它也可能與量化、batching、cache management 產生複雜交互。

DFlash 與 roadmap

新來源主張 Google 支援 diffusion-style speculative decoding / DFlash，並在 TPU v5p 達平均 3.13 倍、峰值近 6 倍 token 生成加速；此 benchmark 需核驗。

SFLAB Brain

Explorer

推測解碼

推測解碼

解決的問題

來源主張

Caveat

DFlash 與 roadmap

Graph View

Table of Contents

Backlinks