Niceleme (quantization), bir modelin ağırlıklarını ve/veya aktivasyonlarını 16-bit ya da 32-bit yerine 8-bit, 4-bit, hatta 2-bit gibi daha düşük hassasiyetli sayı tipleriyle temsil etme tekniğidir. Amaç çift yönlüdür: hem GPU belleğinin daha azına sığmak hem de modern donanımın daha düşük bit genişliğinde sunduğu daha yüksek Throughput'tan faydalanmak. GGUF formatı ve llama.cpp sayesinde quantized modeller laptop'larda bile çalıştırılabilir hâle geldi; Ollama gibi araçların yaygınlaşması bu sayede mümkün oldu. Bilinçli yapılırsa kalite kaybı çoğu görevde ihmal edilebilir düzeydedir; agresif kuantizasyon ise reasoning ve uzun bağlam görevlerinde gözle görülür bozulmaya yol açar.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2020
Niceleme (Quantization)
Model ağırlıklarını daha düşük hassasiyetli sayılarla temsil ederek bellek ve hız kazanma tekniği.
- EN — İngilizce karşılığı
- Quantization
- TR — Türkçe karşılığı
- Niceleme