Inference, eğitilmiş bir modelin yeni bir girdiye karşılık çıktı üretmesi sürecidir; bir LLM'in promptu okuyup yanıtı yazması tam olarak budur. Training tek seferlik (ve çok pahalı) bir yatırımken inference modelin tüm ömrü boyunca tekrar tekrar gerçekleşir; gerçek operasyonel maliyet zamanla burada birikir. TTFT, TPS, Throughput, Latency gibi metrikler, KV Cache yönetimi ve Continuous Batching gibi teknikler hep bu fazı ucuzlatmak ve hızlandırmak içindir. vLLM, NVIDIA Triton ve TensorRT gibi çıkarım altyapıları, modeli eğitmekten daha az glamorous ama ürün tarafında en az o kadar belirleyicidir.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Başlangıç · 2018
Çıkarım (Inference)
Eğitilmiş bir modelin verilen girdiye karşılık çıktı üretme süreci.
- EN — İngilizce karşılığı
- Inference
- TR — Türkçe karşılığı
- Çıkarım (Inference)