HBM與HBF在LLM推論中的角色與競爭技術

問題

在 LLM 推論中,HBM 與 HBF 分別扮演什麼角色?Micron 是否缺乏 HBF 計畫?HBF 的 NAND 寫入耐久性是否會導致快速更換?目前有哪些 HBF 參與者,以及除了 HBM/HBF 之外還有哪些可競爭或互補技術?

回答(基於使用者提供來源,待核驗)

HBMHBF 在 LLM 推論中較像互補的記憶體階層,而非二選一替代。HBM 是低延遲、高頻寬、可頻繁讀寫的熱資料層,適合 GPU 即時運算、中間張量與高更新頻率資料;HBF 則是高容量、讀取密集的暖資料層,適合模型權重與部分共享 KV cache。

來源主張,Micron Technology 對 HBF 的公開態度相對保守,尚未像 SK hynixSamsung Electronics 一樣明確推動 HBF 產品化;但 Micron 仍透過 HBM3E/HBM4 支援 AI 推論記憶體瓶頸,且可能透過 NAND 產能與新加坡晶圓廠保留 HBF 相關選項。

HBF 的 NAND-based 寫入耐久性確實低於 HBM/DRAM,但在 LLM 推論讀取為主的場景中,不必然代表會快速更換。關鍵在於實際寫入量、KV cache 是否落在 HBF、wear leveling、write amplification 與資料中心使用週期。

主要參與者(來源主張)

  • SanDisk Corporation:與 SK hynix 推動 HBF 標準化,來源稱 2026/2027 有樣品或裝置時程。
  • SK hynix:HBM 領先者,來源稱其與 SanDisk 主導 HBF 標準化並提出 H³ 混合架構。
  • Samsung Electronics:來源稱其研究 HBF 並布局相關專利。
  • Micron Technology:來源稱公開量產時程不明,但可能評估與規劃相關技術。
  • Kioxia:來源稱可能因 SanDisk 合作基礎間接參與;尚未建立獨立頁。
  • Google:來源稱為潛在 HBF 客戶。
  • NVIDIA:來源稱目前仍優先採用 HBM,尚未把 HBF 納入主要考量。

替代或互補技術

詳見 AI推論記憶體替代技術。新增來源把替代/互補方案具體拆成 Stacked GDDRCXL MemoryLPDDR高階 SSDZ-Angle MemoryProcessing-In-Memory。它們多數不是 HBM/HBF 的直接替代,而是按成本、容量、延遲、功耗、資料熱度與部署場景補位。

需要核驗的證據

  • Micron CEO 對 HBF 的原始公開發言與官方路線圖。
  • SanDisk/SK hynix HBF 標準化合作公告與 OCP/JEDEC 進度。
  • Google、NVIDIA 對 HBF/HBM 的平台採用或未採用證據。
  • HBF 在 LLM 推論中模型權重、KV cache、write endurance 與 replacement cycle 的實測。

相關頁面

Decode 階段與 KV Cache 補充

新來源補充:LLM 推論常卡在 decode phase 的 memory bandwidth 與 KV Cache,而非只有模型權重大小。這使 HBM/HBF/LPDDR/CXL/SSD 的角色需要依 hot cache、warm data、cold storage 與 offload 頻率分層。

推論引擎與 HBM/HBF 需求

新來源補充:若 TensorRT-LLM/vLLM/Google serving stack 的 KV cache quantization、PagedAttention 與 offload 成熟,可能降低單位 HBM 壓力;但長上下文與多使用者 serving 仍可能擴大總 memory demand。