QLoRA

QLoRA, Dettmers ve arkadaşlarının 2023'te yayımladığı, LoRA'yı 4-bit Quantization ile birleştirip ince ayarın GPU bellek maliyetini bir kat daha aşağı çeken bir tekniktir. Taban modeli 4-bit'te tutar, küçük LoRA adaptörlerini ise tam hassasiyetle eğitir; bu sayede 65 milyar parametreli LLaMA modellerinin tek bir 48GB GPU'da Fine-tuning yapılabilmesi mümkün hâle geldi. NF4 (NormalFloat-4) gibi yeni veri tipleri ve 'double quantization' teknikleri tanıttı, sonraki PEFT araştırmalarının da temelini oluşturdu. Topluluk tarafından yapılan ince ayarların büyük bölümü bugün hâlâ QLoRA tabanlıdır; 'evimde GPU'mda kendi modelimi eğittim' hikâyelerinin çoğunun arkasında bu vardır.