Prefill-Decode Disaggregation

Prefill-Decode Disaggregation 是將 LLM推論 的 prefill phase 與 decode phase 分離部署或分離調度的 serving 架構。

為什麼重要

Prefill 通常處理整段 prompt,平行度較高;decode 則逐 token 生成,更容易受 記憶體頻寬瓶頸KV Cache 與 latency 限制。兩者資源型態不同,因此分離部署可能提高資源利用率。

來源主張

來源主張 NVIDIA Dynamo 將持續演進,支援 prefill/decode 分離部署,並與推測解碼、LPX 推論機架與光學互聯結合,使系統延遲下降。具體數字與架構需核驗。

Caveat

Disaggregation 可能改善 GPU utilization,但也引入網路傳輸、cache placement、scheduler complexity 與 p99 latency 風險。是否有效取決於 workload、context length、batching policy 與資料中心網路。