Spekülatif Çözme (Speculative Decoding)

Speculative decoding, Leviathan ve arkadaşlarının 2023'te yayımladığı, Inference hızını dramatik biçimde artırabilen bir tekniktir. Fikir basit ama güçlü: küçük ve hızlı bir 'taslak' model birkaç Token'i baştan tahmin eder, ardından büyük model bu taslağı tek bir paralel pasoda doğrular ve geçerli kısmı kabul eder. Bu sayede Autoregressive üretimin sıralı doğası kısmen aşılır ve genelde 2x-3x Throughput kazanımı elde edilir. Modern çıkarım yığınlarında (vLLM, TensorRT-LLM) ve uzun bağlam senaryolarında giderek standart hâline gelmektedir; çıktının istatistiksel dağılımı orijinaliyle aynı kaldığı için 'kalite ödünsüz hız' olarak konumlanır.