HBF將分流AI推論記憶體需求但不取代HBM

主張

HBF 若成功商業化,將分流部分 AI 推論場景對 HBM 的容量需求,但不會取代 HBM;更可能形成 AI記憶體階層化:HBM 負責低延遲熱資料,HBF 負責大容量、讀取密集型暖資料,NAND/SSD 負責更大容量冷資料。

支持理由

  • 來源主張 HBF 容量可達 HBM 的 8–16 倍,適合放置大型模型權重,減少頻繁存取 SSD。
  • 來源主張 HBF 讀取頻寬可接近 HBM,但延遲仍高於 HBM,因此更適合推論與讀取密集任務,而非訓練中的即時中間資料。
  • 來源主張 HBF 每 GB 成本顯著低於 DRAM/HBM,若封裝與生態成熟,可改善大型模型推論 TCO。
  • 2026-05-18-HBM與HBF相關問題深入分析 補充,HBF 的 NAND 寫入耐久性在讀取為主的 LLM 推論中不一定造成短期更換問題,前提是模型權重多為唯讀、KV cache placement 與 wear leveling 設計合理。
  • HBM 在訓練、低延遲與頻繁讀寫場景仍具不可替代性。

反方與不確定性

  • HBF 的性能、功耗與成本數字目前在本來源中未附引用,需核驗。
  • HBF 若引入新的 interposer、控制器與封裝成本,實際系統成本未必接近 NAND 裸 die 成本。
  • 若 HBM 容量快速提升或 CXL/SSD/NAND 架構改善,HBF 的差異化可能縮小。
  • 若推論需求彈性很高,HBF 降低成本後可能擴大總用量,而不是壓低 HBM 絕對需求。
  • HBF 寫入耐久性是否足以支撐資料中心生命週期,需要實際 workload、write amplification 與 controller 設計驗證。

需要觀察的證據

  • JEDEC/OCP HBF 標準化進度。
  • SanDisk/SK hynix/Samsung/Micron 的原型、試產線、客戶採用與系統展示。
  • HBF 在 LLM 推論、KV cache、RAG/向量資料與模型權重讀取場景的實測 latency/throughput/TCO。
  • GoogleNVIDIA、AMD、hyperscaler 是否在平台路線圖中支援 HBF 或 HBM+HBF 混合封裝。

相關頁面

來源

Decode hot path caveat

新來源補充 caveat:若 decode hot path 對 bandwidth/latency 極敏感,HBF 更可能分流 warm/capacity 層需求,而非完全取代 HBM。