AI 推論硬體生態系
核心結論
LLM推論優化技術堆疊 說明「怎麼優化」;本頁補上「誰在生態中提供哪一層能力」。LLM 推論解法不只來自模型公司,也來自硬體、雲端 ASIC、客製 ASIC、專用加速器、製造供應鏈、系統整合商與 serving software 的共同分工。
需求端:模型 API、企業 agent、長上下文應用
↓
Serving 層:vLLM / TensorRT-LLM / SGLang / batching / routing
↓
運算層:GPU、TPU、Gaudi、Trainium、Inferentia、Maia、專用推論晶片
↓
記憶體與互連:HBM、CXL、SRAM、光互連、NVLink / Ethernet / PCIe
↓
製造與系統:TSMC、ASML、記憶體供應商、AI server OEM / ODM分層地圖
1. 通用 GPU / accelerator
NVIDIA 仍是既有 wiki 中最重要的 GPU 平台方;新來源補充 Advanced Micro Devices 與 Intel 也要放入推論硬體地圖。這一層的關鍵是 HBM 容量/頻寬、軟體生態、模型支援與資料中心部署規模。
2. 雲端自研 ASIC
Amazon Web Services、Google、Microsoft Maia 等自研晶片代表 hyperscaler 想用垂直整合降低 inference TCO。這一層不一定取代 GPU,而是用於內部 workload、特定模型 serving 或成本敏感的高量推論。
3. 客製 ASIC 與互連
Broadcom 的價值不只在單一加速器,也在 hyperscaler custom ASIC、networking ASIC、PCIe/CXL/光互連等系統層能力。若 LLM decode 被 memory movement 限制,互連與 cache access path 會成為成本與 latency 的重要變數。
4. 專用推論加速器
Cerebras Systems、SambaNova Systems、Tenstorrent、Groq、FuriosaAI、d-Matrix、Lightmatter 等公司嘗試用晶圓級、資料流、RISC-V、LPU、光子互連或低功耗 ASIC 做差異化。共同挑戰是:能否取得足夠模型支援、開發者工具、供應規模與雲端可用性。
5. 製造、記憶體與設備
Taiwan Semiconductor Manufacturing Company、SK hynix、Samsung Electronics、Micron Technology 與 ASML 決定先進晶片、HBM 與製程設備供給。這一層影響 Memflation、記憶體短缺壓縮硬體毛利率風險 與 AI capex 的交付速度。
6. 系統整合與部署
Dell Technologies、Hewlett Packard Enterprise、Supermicro、Lenovo 將 GPU/accelerator、網路、電源、散熱與機櫃整合成企業可部署的推論系統。它們不一定掌握最核心 IP,但能影響交付速度、液冷導入、私有部署與企業採購路徑。
投資分析含義
- 技術瓶頸與利潤池不在同一個地方:晶片可能最關鍵,但系統整合、記憶體、互連與軟體也可能短期受益。
- 自研 ASIC 會降低 hyperscaler 對外部 GPU 的邊際依賴,但短期通常與 GPU 並存。
- 專用推論加速器若缺乏軟體生態,可能在 benchmark 之外難以擴大;反之,若某類 workload 形成標準化 serving pattern,低成本 ASIC 可能取得利基。
- 推論成本下降可能刺激 token demand,讓 Token Economics Flywheel 與上游供應鏈需求同時放大。
待核驗
- 各公司實際公開產品、出貨、雲端可用性與 benchmark。
- 自研 ASIC 的內部使用比例與外部租戶可用性。
- 專用推論加速器的軟體棧、模型支援與客戶採用。
- AI server OEM / ODM 的毛利率、庫存週期與與 NVIDIA / hyperscaler 的議價能力。