tag.detailKicker
#serving
tag.detailSubtitle
tag.wikiSection
PagedAttention
KV önbelleğini sayfalı bellek gibi yöneterek bellek savurganlığını ortadan kaldıran teknik.
- EN
- PagedAttention
- TR
- PagedAttention
Soğuk Başlatma (Cold Start)
Bir modelin veya servisin uzun süre boşta kalıp ilk istekte yavaş yanıt vermesi durumu.
- EN
- Cold Start
- TR
- Soğuk Başlatma
vLLM
PagedAttention ile yüksek verimli LLM servisi sunan, açık kaynaklı çıkarım framework'ü.
- EN
- vLLM
- TR
- vLLM
llama.cpp
Georgi Gerganov'un yerel makinede LLM çalıştırmayı mümkün kılan açık kaynak C++ projesi.
- EN
- llama.cpp
- TR
- llama.cpp
NVIDIA Triton
NVIDIA'nın çoklu framework ve donanım için tasarladığı açık kaynak çıkarım sunucusu.
- EN
- NVIDIA Triton
- TR
- NVIDIA Triton
Akış Çıktısı (Streaming)
Modelin tamamlanmış cevabı beklemek yerine token-token canlı akış olarak göndermesi.
- EN
- Streaming Output
- TR
- Akış Çıktısı
Sürekli Yığınlama (Continuous Batching)
Yeni isteklerin batch'in ortasına eklenip biten isteklerin hemen çıkmasını sağlayan dinamik servis tekniği.
- EN
- Continuous Batching
- TR
- Sürekli Yığınlama
Ollama
LLM'leri yerel makinede tek komutla indirip çalıştırmayı kolaylaştıran araç.
- EN
- Ollama
- TR
- Ollama
KV Cache (KV Önbelleği)
Önceki tokenler için hesaplanmış anahtar/değer vektörlerini saklayıp tekrar hesaplamayı önleyen bellek.
- EN
- KV Cache
- TR
- KV Önbelleği