PagedAttention

PagedAttention 是一類用「分頁」方式管理 KV Cache 的 LLM serving 技術。它把 KV Cache 切成較小區塊動態配置，類似作業系統管理記憶體，以降低 fragmentation 與閒置浪費。

解決的問題

長上下文與多使用者 serving 會讓 KV Cache 迅速膨脹。若記憶體配置不佳，GPU VRAM 可能有大量碎片與浪費，導致 batch size 受限或 OOM。

PagedAttention 的目標是：

降低 KV Cache memory waste。
支援更高 batch size / throughput。
讓 long-context serving 更有效率。

與 vLLM

來源主張 vLLM 透過 PagedAttention 將 KV Cache memory waste 從 60%-80% 降至低於 4%，並提升 2-4 倍吞吐量。此 benchmark 與採用範圍需以 vLLM 論文、文件與實測核驗。

Caveat

PagedAttention 改善 memory management，不代表消除所有 memory bandwidth 或 latency bottleneck。實際效益取決於模型、batch size、sequence length、hardware、scheduler 與 serving workload。

SFLAB Brain

Explorer

PagedAttention

PagedAttention

解決的問題

與 vLLM

Caveat

Graph View

Table of Contents

Backlinks