AI 推論硬體生態系

核心結論

LLM推論優化技術堆疊說明「怎麼優化」；本頁補上「誰在生態中提供哪一層能力」。LLM 推論解法不只來自模型公司，也來自硬體、雲端 ASIC、客製 ASIC、專用加速器、製造供應鏈、系統整合商與 serving software 的共同分工。

需求端：模型 API、企業 agent、長上下文應用
  ↓
Serving 層：vLLM / TensorRT-LLM / SGLang / batching / routing
  ↓
運算層：GPU、TPU、Gaudi、Trainium、Inferentia、Maia、專用推論晶片
  ↓
記憶體與互連：HBM、CXL、SRAM、光互連、NVLink / Ethernet / PCIe
  ↓
製造與系統：TSMC、ASML、記憶體供應商、AI server OEM / ODM

分層地圖

1. 通用 GPU / accelerator

NVIDIA 仍是既有 wiki 中最重要的 GPU 平台方；新來源補充 Advanced Micro Devices 與 Intel 也要放入推論硬體地圖。這一層的關鍵是 HBM 容量/頻寬、軟體生態、模型支援與資料中心部署規模。

2. 雲端自研 ASIC

Amazon Web Services、Google、Microsoft Maia 等自研晶片代表 hyperscaler 想用垂直整合降低 inference TCO。這一層不一定取代 GPU，而是用於內部 workload、特定模型 serving 或成本敏感的高量推論。

3. 客製 ASIC 與互連

Broadcom 的價值不只在單一加速器，也在 hyperscaler custom ASIC、networking ASIC、PCIe/CXL/光互連等系統層能力。若 LLM decode 被 memory movement 限制，互連與 cache access path 會成為成本與 latency 的重要變數。

4. 專用推論加速器

Cerebras Systems、SambaNova Systems、Tenstorrent、Groq、FuriosaAI、d-Matrix、Lightmatter 等公司嘗試用晶圓級、資料流、RISC-V、LPU、光子互連或低功耗 ASIC 做差異化。共同挑戰是：能否取得足夠模型支援、開發者工具、供應規模與雲端可用性。

5. 製造、記憶體與設備

Taiwan Semiconductor Manufacturing Company、SK hynix、Samsung Electronics、Micron Technology 與 ASML 決定先進晶片、HBM 與製程設備供給。這一層影響 Memflation、記憶體短缺壓縮硬體毛利率風險與 AI capex 的交付速度。

6. 系統整合與部署

Dell Technologies、Hewlett Packard Enterprise、Supermicro、Lenovo 將 GPU/accelerator、網路、電源、散熱與機櫃整合成企業可部署的推論系統。它們不一定掌握最核心 IP，但能影響交付速度、液冷導入、私有部署與企業採購路徑。

投資分析含義

技術瓶頸與利潤池不在同一個地方：晶片可能最關鍵，但系統整合、記憶體、互連與軟體也可能短期受益。
自研 ASIC 會降低 hyperscaler 對外部 GPU 的邊際依賴，但短期通常與 GPU 並存。
專用推論加速器若缺乏軟體生態，可能在 benchmark 之外難以擴大；反之，若某類 workload 形成標準化 serving pattern，低成本 ASIC 可能取得利基。
推論成本下降可能刺激 token demand，讓 Token Economics Flywheel 與上游供應鏈需求同時放大。

待核驗

各公司實際公開產品、出貨、雲端可用性與 benchmark。
自研 ASIC 的內部使用比例與外部租戶可用性。
專用推論加速器的軟體棧、模型支援與客戶採用。
AI server OEM / ODM 的毛利率、庫存週期與與 NVIDIA / hyperscaler 的議價能力。

SFLAB Brain

Explorer

AI推論硬體生態系