TensorRT-LLM
TensorRT-LLM 是來源主張中的 NVIDIA LLM 推理引擎,連接 NVIDIA GPU、量化、KV Cache 管理、batching 與推測解碼等 production inference optimization。
來源主張
來源主張 TensorRT-LLM:
- 整合 NVFP4 KV Cache 量化,使 KV Cache 記憶體占用相較 FP8 減少約 50%。
- 可使上下文長度與批次處理量加倍,準確度損失不到 1%。
- 支援 EAGLE-3、Multi-Token Prediction、P-EAGLE,推測解碼可達 2-3.6 倍加速。
- 已整合至 Blackwell GPU 平台。
上述均需以 NVIDIA 文件、benchmark 條件與第三方實測核驗。
投資含義
若成立,TensorRT-LLM 代表 NVIDIA 不只賣 GPU,也透過 CUDA / inference engine / serving stack 捕捉 AI 推論部署價值。但不能把軟體支援直接等同於新增收入,需看雲端採用、enterprise deployment 與競爭替代。
Roadmap 中的角色
新來源把 TensorRT-LLM 放入 2026-2027 推論 roadmap,作為 NVIDIA 軟硬體整合與推測解碼/分頁管理的核心引擎之一;具體功能與時程需核驗。