Preskoči na sadržaj
MEVZU N°127ISTANBUL

tag.detailKicker

#serving

tag.detailSubtitle

§03

tag.wikiSection

09
§01wiki.types.glossary

PagedAttention

KV önbelleğini sayfalı bellek gibi yöneterek bellek savurganlığını ortadan kaldıran teknik.

EN
PagedAttention
TR
PagedAttention
§02wiki.types.glossary

Soğuk Başlatma (Cold Start)

Bir modelin veya servisin uzun süre boşta kalıp ilk istekte yavaş yanıt vermesi durumu.

EN
Cold Start
TR
Soğuk Başlatma
§03wiki.types.glossary

vLLM

PagedAttention ile yüksek verimli LLM servisi sunan, açık kaynaklı çıkarım framework'ü.

EN
vLLM
TR
vLLM
§04wiki.types.glossary

llama.cpp

Georgi Gerganov'un yerel makinede LLM çalıştırmayı mümkün kılan açık kaynak C++ projesi.

EN
llama.cpp
TR
llama.cpp
§05wiki.types.glossary

NVIDIA Triton

NVIDIA'nın çoklu framework ve donanım için tasarladığı açık kaynak çıkarım sunucusu.

EN
NVIDIA Triton
TR
NVIDIA Triton
§06wiki.types.glossary

Akış Çıktısı (Streaming)

Modelin tamamlanmış cevabı beklemek yerine token-token canlı akış olarak göndermesi.

EN
Streaming Output
TR
Akış Çıktısı
§07wiki.types.glossary

Sürekli Yığınlama (Continuous Batching)

Yeni isteklerin batch'in ortasına eklenip biten isteklerin hemen çıkmasını sağlayan dinamik servis tekniği.

EN
Continuous Batching
TR
Sürekli Yığınlama
§08wiki.types.glossary

Ollama

LLM'leri yerel makinede tek komutla indirip çalıştırmayı kolaylaştıran araç.

EN
Ollama
TR
Ollama
§09wiki.types.glossary

KV Cache (KV Önbelleği)

Önceki tokenler için hesaplanmış anahtar/değer vektörlerini saklayıp tekrar hesaplamayı önleyen bellek.

EN
KV Cache
TR
KV Önbelleği