LLM 推論解決方案生態系與供應鏈

摘要

這份使用者提供的研究筆記補足 2026-05-18-LLM推論優化技術與大型科技公司作法 未完整展開的產業生態。核心觀點是:LLM推論 瓶頸不能只看模型公司或單一 GPU 廠商,而要拆成多層互補角色:

GPU / accelerator:NVIDIA、AMD、Intel
雲端自研 ASIC:AWS Trainium / Inferentia、Microsoft Maia、Google TPU
客製 ASIC / 互連:Broadcom
專用推論加速器:Cerebras、SambaNova、Tenstorrent、Groq、FuriosaAI、d-Matrix、Lightmatter
製造與元件:TSMC、SK hynix、Samsung、Micron、ASML
系統整合:Dell、HPE、Supermicro、Lenovo
Serving software:vLLM、TensorRT-LLM、SGLang

來源把這些參與者共同連到三個技術問題:記憶體頻寬瓶頸KV Cache 成長,以及自迴歸 decode path 的順序性限制。

來源可信度註記

本筆記未附官方公告、產品資料、benchmark、併購文件或論文連結,因此以下高影響敘述均先保存為「來源主張 / 待核驗」:

  • AMD Instinct MI350X、HBM3E 288GB、ROCm 推論優化與長上下文表現。
  • Intel Gaudi 3、OpenVINO、專用 attention 單元與推測解碼支援。
  • AWS Trainium3 / Inferentia 的製程、推論角色與 KV Cache offload 描述。
  • Microsoft Maia 200 於 2026 年初推出、推論專用、SRAM 與 FP4/FP8 優化。
  • Broadcom 與 OpenAI 客製晶片合作、PCIe/CXL 互連對 KV Cache 存取的作用。
  • Cerebras WSE-3 電晶體數、21 PB/s 頻寬與長序列推論優勢。
  • Groq 已於 2025 年底被 NVIDIA 收購。
  • TSMC 掌握 90% 以上先進節點產能、HBM4 / System-on-Wafer 對推論記憶體的直接貢獻。
  • 2026 年 HBM4 已大幅增加容量,以及各記憶體供應商量產狀態。

消化後的 Wiki 更新

張力與矛盾

  • 本來源擴大「參與者」範圍,但多數具體規格與 2026 時點敘述尚未核驗,不能直接升格為確定產業現況。
  • 來源把推論加速器、雲端 ASIC 與供應鏈公司放在同一生態圖中,有助於投資 mapping;但價值捕捉不等於技術重要性,系統整合商與供應鏈設備商的毛利、議價能力與收入傳導需分開分析。
  • 若 Groq 被 NVIDIA 收購、Maia 200 推論專用或 TSMC 90% 先進節點產能等敘述無法核驗,相關 entity 頁需調整為更保守的「可能參與者」而非已發生事件。

待追問 / 待核驗

  • 哪些公司已有公開 LLM inference benchmark,且可跨模型、batch size、context length、latency target 比較?
  • 雲端自研 ASIC 主要用於內部 workloads、租戶可用服務,還是少數策略客戶?
  • 專用推論加速器是否能在開發者生態、模型支援與供應規模上挑戰 GPU?
  • 系統整合商在 AI server 利潤池中的毛利率與客戶黏性是否足以形成獨立投資 thesis?

來源

  • 原文保存於 raw/Clippings/2026-05-18-LLM推論解決方案生態系與供應鏈.md