llm-d

llm-d 是來源主張中 Google 支援的開放 LLM serving / inference framework 或生態入口,用於讓模型在不同雲端或加速器上高效運行。

來源主張

來源主張 Google 將 TurboQuant、DFlash 與 GKE Inference Gateway 等技術整合至 llm-d,並於 2026 年底全面可用。此採用狀態、專案範圍與技術邊界需核驗。

與既有頁的關係

llm-d 應與 vLLMTensorRT-LLMPagedAttentionPrefill-Decode Disaggregation 一起觀察,因為它們都屬於 LLM serving stack 的一部分。