AI推論記憶體替代技術

定義

AI 推論記憶體替代技術,是指除 HBMHBF 之外,用來改善 LLM 推論容量、頻寬、延遲、功耗或成本瓶頸的記憶體與儲存方案。2026-05-18-HBM與HBF相關問題深入分析 初步列出堆疊式 GDDR、CXL memory、LPDDR、高階 SSD、Z-series memory 與 PIM;2026-05-18-高頻寬記憶體替代方案全面說明 進一步補充各方案的角色、優缺點與涉及企業。

階層定位

最熱資料 / 即時運算:HBM

中階高頻寬或容量擴展:Stacked GDDR / ZAM / CXL Memory / LPDDR

暖資料 / 大容量讀取:HBF / CXL Memory / LPDDR / SSD prefetch

冷資料 / 模型權重儲存 / MoE 專家卸載:高階 SSD

降低資料搬移能耗:PIM(可嵌入或靠近多種記憶體層)

技術類型(來源主張,待核驗)

  • Stacked GDDR:介於 HBM 與一般 GDDR 間的中階方案,來源稱可能由 Micron Technology 推動,2027 年有原型。
  • CXL Memory:記憶體池化與 HBM 延伸層,適合多 GPU 推論、KV cache 與資源共享;來源稱延遲 200–300ns、頻寬 1TB/s+。
  • LPDDR:低功耗容量擴展,適合 KV cache offload、邊緣 AI 或能耗敏感推論。
  • 高階 SSD:冷資料、模型權重載入、MoE 專家權重卸載;需 prefetching 隱藏微秒至毫秒級延遲。
  • Z-Angle Memory:早期垂直堆疊 DRAM 技術,來源稱可挑戰 HBM,但商業化約 2029–2030 年。
  • Processing-In-Memory:在記憶體內或近記憶體處加入運算,重點是降低資料搬移與能耗,而非單純提高容量。

與 HBM/HBF 的關係

這些技術多數是特定場景補位,而不是立即取代 HBM/HBF。可用以下方式理解:

最低延遲熱資料:HBM
高容量暖資料:HBF / CXL memory / Stacked GDDR / LPDDR(視實作)
冷資料與海量容量:高階 SSD
架構性長期選項:PIM / ZAM / 其他新型記憶體

主要投資含義

  • 這些方案若成熟,可能緩解單一 HBM 供給瓶頸,但也可能擴大整體 AI 推論部署,讓總記憶體需求上升。
  • Micron Technology 可能透過 Stacked GDDR、LPDDR、HBM 與 NAND/SSD 多線布局來服務推論市場。
  • Samsung Electronics 在 NAND/SSD、PIM、HBM/HBF 相關封裝上有多重選項。
  • Intel 的 CXL 與 ZAM 線索顯示 CPU/互連/平台商也可能參與記憶體價值鏈重分配。

需要核驗的資料

  • 各技術原型、量產時程、客戶採用與 benchmark。
  • 真實 workload 下 latency、bandwidth、power、TCO 與軟體複雜度。
  • 這些技術是替代 HBM/HBF,還是提高整體可部署模型規模、間接拉動更多 HBM/HBF 需求。

相關頁面

來源

生產角度排序

新增來源將替代技術按「生產可擴展性」排序:LPDDR + 高階 SSD、HBF、CXL 最容易在 RAM 短缺下跑出;Stacked GDDR 與 PIM 居中;HBM 與 ZAM 最難短期快速擴產。這個排序補充原本以性能 / 架構為主的比較,並指向 AI推論記憶體生產可擴展性

替代技術對應的推論瓶頸

新來源補充替代技術的對應瓶頸:quantization 降低權重/cache 大小,continuous batching 提高吞吐,FlashAttention 改善 attention memory access;CXL/LPDDR/SSD/HBF/PIM 則分別對應容量延伸、offload 或降低資料搬移。

Serving optimization 與記憶體替代

新來源補充:記憶體替代技術需與 serving optimization 一起看。PagedAttention/quantization 可能降低單請求記憶體需求;CXL/LPDDR/SSD/HBF 則可能作為不同熱度的 cache/offload 層。