#serving

tag.detailSubtitle

§03

tag.wikiSection

KV önbelleğini sayfalı bellek gibi yöneterek bellek savurganlığını ortadan kaldıran teknik.

Bir modelin veya servisin uzun süre boşta kalıp ilk istekte yavaş yanıt vermesi durumu.

PagedAttention ile yüksek verimli LLM servisi sunan, açık kaynaklı çıkarım framework'ü.

Georgi Gerganov'un yerel makinede LLM çalıştırmayı mümkün kılan açık kaynak C++ projesi.

NVIDIA'nın çoklu framework ve donanım için tasarladığı açık kaynak çıkarım sunucusu.

Modelin tamamlanmış cevabı beklemek yerine token-token canlı akış olarak göndermesi.

Yeni isteklerin batch'in ortasına eklenip biten isteklerin hemen çıkmasını sağlayan dinamik servis tekniği.

LLM'leri yerel makinede tek komutla indirip çalıştırmayı kolaylaştıran araç.

Önceki tokenler için hesaplanmış anahtar/değer vektörlerini saklayıp tekrar hesaplamayı önleyen bellek.