TensorRT

TensorRT, NVIDIA'nın 2017'den beri geliştirdiği, kendi GPU'ları için son derece optimize edilmiş bir çıkarım kütüphanesi ve derleyicisidir. Eğitilmiş bir modeli alır; çekirdek füzyonu, Quantization (FP16, INT8, FP8), katman birleştirme ve kalibrasyon gibi tekniklerle agresif şekilde hızlandırır. LLM tarafında özelleşmiş varyantı TensorRT-LLM, KV Cache optimizasyonları, Continuous Batching, Speculative Decoding ve özelleştirilmiş çekirdeklerle H100/H200 üzerinde sınıfının en hızlı çıkarım performansını hedefler. vLLM gibi açık alternatiflerden daha az esnektir ama NVIDIA donanımının fiziksel sınırlarına en yakın koşan çözümlerdendir.