Speculative decoding, Leviathan ve arkadaşlarının 2023'te yayımladığı, Inference hızını dramatik biçimde artırabilen bir tekniktir. Fikir basit ama güçlü: küçük ve hızlı bir 'taslak' model birkaç Token'i baştan tahmin eder, ardından büyük model bu taslağı tek bir paralel pasoda doğrular ve geçerli kısmı kabul eder. Bu sayede Autoregressive üretimin sıralı doğası kısmen aşılır ve genelde 2x-3x Throughput kazanımı elde edilir. Modern çıkarım yığınlarında (vLLM, TensorRT-LLM) ve uzun bağlam senaryolarında giderek standart hâline gelmektedir; çıktının istatistiksel dağılımı orijinaliyle aynı kaldığı için 'kalite ödünsüz hız' olarak konumlanır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2023
Spekülatif Çözme (Speculative Decoding)
Küçük taslak modelle birden çok tokeni öngörüp büyük modelle doğrulayarak hızlanma sağlayan teknik.
- EN — İngilizce karşılığı
- Speculative Decoding
- TR — Türkçe karşılığı
- Spekülatif Çözme