Processing-In-Memory
定義
Processing-In-Memory(PIM,記憶體內運算)是在記憶體或近記憶體位置整合運算邏輯,試圖減少傳統架構中資料在處理器與記憶體之間往返搬移的成本。
AI 推論角色
PIM 對 AI 推論的價值不只是增加容量,而是降低資料搬移與能耗。來源主張 PIM 適合 GEMV(General Matrix-Vector Multiplication)等 LLM 推論核心操作,可建立在 HBM、DDR 或 LPDDR 基礎上。
來源主張(待核驗)
- AI 資料移動佔能耗 35–62%。
- Samsung PRAISE 系統可使推論速度最高提升 48.3%、整體功耗降低 11.5%。
- Samsung Electronics 正積極開發 PIM 技術。
主要限制
- 需客製硬體、compiler/runtime 與模型映射。
- 靈活性可能低於通用 GPU/NPU。
- 多數方案仍處研究或早期商業階段。
相關頁面
來源
生產與採用位置
PIM 的生產位置介於既有產線升級與新產品之間:若嵌入 HBM / LPDDR,它可利用現有 DRAM 產品線,但仍需要標準、編譯器、operator mapping 與系統整合。PIM 更像降低資料搬移與功耗的效率增強層,而不是最直接增加記憶體容量的供給解法。
作為效率型解法
來源把 PIM 列為 RAM 短缺解法之一,理由是把部分運算放進記憶體附近可減少資料搬移、降低能耗與頻寬壓力。這不是直接增加 DRAM wafer 供給,而是提高每單位記憶體/頻寬的有效工作量;是否能緩解短缺取決於 workload、軟體支援與三星等供應商的產品化。
資料搬移瓶頸連結
新來源強化 PIM 的理論動機:若 LLM decode 常受記憶體頻寬與資料搬移限制,PIM 的價值主張是把部分運算靠近資料,但商業化、軟體支援與實際 workload 適配仍需驗證。