Çıkarım (Inference)

Inference, eğitilmiş bir modelin yeni bir girdiye karşılık çıktı üretmesi sürecidir; bir LLM'in promptu okuyup yanıtı yazması tam olarak budur. Training tek seferlik (ve çok pahalı) bir yatırımken inference modelin tüm ömrü boyunca tekrar tekrar gerçekleşir; gerçek operasyonel maliyet zamanla burada birikir. TTFT, TPS, Throughput, Latency gibi metrikler, KV Cache yönetimi ve Continuous Batching gibi teknikler hep bu fazı ucuzlatmak ve hızlandırmak içindir. vLLM, NVIDIA Triton ve TensorRT gibi çıkarım altyapıları, modeli eğitmekten daha az glamorous ama ürün tarafında en az o kadar belirleyicidir.