TensorRT, NVIDIA'nın 2017'den beri geliştirdiği, kendi GPU'ları için son derece optimize edilmiş bir çıkarım kütüphanesi ve derleyicisidir. Eğitilmiş bir modeli alır; çekirdek füzyonu, Quantization (FP16, INT8, FP8), katman birleştirme ve kalibrasyon gibi tekniklerle agresif şekilde hızlandırır. LLM tarafında özelleşmiş varyantı TensorRT-LLM, KV Cache optimizasyonları, Continuous Batching, Speculative Decoding ve özelleştirilmiş çekirdeklerle H100/H200 üzerinde sınıfının en hızlı çıkarım performansını hedefler. vLLM gibi açık alternatiflerden daha az esnektir ama NVIDIA donanımının fiziksel sınırlarına en yakın koşan çözümlerdendir.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2017
TensorRT
NVIDIA donanımına özel olarak optimize edilmiş, yüksek hızlı çıkarım kütüphanesi.
- EN — İngilizce karşılığı
- TensorRT
- TR — Türkçe karşılığı
- TensorRT