İçeriğe atla
MEVZU N°130ISTANBUL

MEVZU N° ETIKET / VOL. 160

#training

0 blog · 0 haber · 10 wiki

§03

Wiki

10
§01Sözlük

Sentetik Veri (Synthetic Data)

Gerçek veri yerine veya yanında, başka bir model tarafından üretilen eğitim verisidir.

EN
Synthetic Data
TR
Sentetik Veri
§02Sözlük

RLHF — İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme

İnsan tercihlerini ödül modeline dönüştürerek LLM'i bu ödüle göre optimize eden hizalama tekniği.

EN
RLHF (Reinforcement Learning from Human Feedback)
TR
RLHF — İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme
§03Sözlük

LoRA (Low-Rank Adaptation)

Modelin tüm ağırlıklarını değil, küçük düşük-mertebeli matrisleri eğitip bellek maliyetini düşüren ince ayar yöntemi.

EN
LoRA (Low-Rank Adaptation)
TR
LoRA (Düşük-Mertebeli Adaptasyon)
§04Sözlük

DPO — Doğrudan Tercih Optimizasyonu

RLHF'in karmaşık RL adımı olmadan, tercih verisinden doğrudan model güncellemesi yapan yöntem.

EN
DPO (Direct Preference Optimization)
TR
DPO — Doğrudan Tercih Optimizasyonu
§05Sözlük

Ön Eğitim (Pre-training)

Modelin trilyonlarca tokenlık genel amaçlı veriden temel dil yetisini kazandığı ilk eğitim fazı.

EN
Pre-training
TR
Ön Eğitim
§06Sözlük

Maskeli Dil Modelleme

Cümlede bazı tokenleri maskeleyip modelin onları tahmin etmesini öğrettiği eğitim görevi.

EN
Masked Language Modeling
TR
Maskeli Dil Modelleme
§07Sözlük

MFU — Model FLOPs Kullanımı

Modelin teorik tepe FLOPs'unun ne kadarını fiilen kullanabildiğini ölçen verimlilik metriği.

EN
Model FLOPs Utilization (MFU)
TR
Model FLOPs Kullanımı (MFU)
§08Sözlük

Sonrası-Eğitim (Post-training)

Ön eğitim sonrası modeli kullanışlı, güvenli ve talimat takip eden bir asistana dönüştüren faz.

EN
Post-training
TR
Sonrası-Eğitim
§09Sözlük

İnce Ayar (Fine-tuning)

Önceden eğitilmiş bir modeli daha küçük, hedefli veriyle belirli bir göreve uyarlama.

EN
Fine-tuning
TR
İnce Ayar (Fine-tuning)
§10Sözlük

QLoRA

Tek bir tüketici GPU'sunda 65B modelleri ince ayar yapmayı mümkün kılan, kuantizasyonla birleşmiş LoRA varyantı.

EN
QLoRA
TR
QLoRA