PagedAttention
PagedAttention 是一類用「分頁」方式管理 KV Cache 的 LLM serving 技術。它把 KV Cache 切成較小區塊動態配置,類似作業系統管理記憶體,以降低 fragmentation 與閒置浪費。
解決的問題
長上下文與多使用者 serving 會讓 KV Cache 迅速膨脹。若記憶體配置不佳,GPU VRAM 可能有大量碎片與浪費,導致 batch size 受限或 OOM。
PagedAttention 的目標是:
- 降低 KV Cache memory waste。
- 支援更高 batch size / throughput。
- 讓 long-context serving 更有效率。
與 vLLM
來源主張 vLLM 透過 PagedAttention 將 KV Cache memory waste 從 60%-80% 降至低於 4%,並提升 2-4 倍吞吐量。此 benchmark 與採用範圍需以 vLLM 論文、文件與實測核驗。
Caveat
PagedAttention 改善 memory management,不代表消除所有 memory bandwidth 或 latency bottleneck。實際效益取決於模型、batch size、sequence length、hardware、scheduler 與 serving workload。