#training

0 blog · 0 haber · 10 wiki

§03

Wiki

Gerçek veri yerine veya yanında, başka bir model tarafından üretilen eğitim verisidir.

İnsan tercihlerini ödül modeline dönüştürerek LLM'i bu ödüle göre optimize eden hizalama tekniği.

Modelin tüm ağırlıklarını değil, küçük düşük-mertebeli matrisleri eğitip bellek maliyetini düşüren ince ayar yöntemi.

RLHF'in karmaşık RL adımı olmadan, tercih verisinden doğrudan model güncellemesi yapan yöntem.

Modelin trilyonlarca tokenlık genel amaçlı veriden temel dil yetisini kazandığı ilk eğitim fazı.

Cümlede bazı tokenleri maskeleyip modelin onları tahmin etmesini öğrettiği eğitim görevi.

Modelin teorik tepe FLOPs'unun ne kadarını fiilen kullanabildiğini ölçen verimlilik metriği.

Ön eğitim sonrası modeli kullanışlı, güvenli ve talimat takip eden bir asistana dönüştüren faz.

Önceden eğitilmiş bir modeli daha küçük, hedefli veriyle belirli bir göreve uyarlama.

Tek bir tüketici GPU'sunda 65B modelleri ince ayar yapmayı mümkün kılan, kuantizasyonla birleşmiş LoRA varyantı.