Mixture of Experts (MoE), bir Transformer içinde çok sayıda paralel 'uzman' alt-ağ tutup her Token için yalnızca birkaçını aktive eden bir mimari ailesidir. Bu sayede toplam parametre sayısı muazzam olabilir (örneğin Mixtral'de 47B), fakat her token için fiilen çalışan parametre çok daha azdır; sonuç, daha düşük çıkarım maliyetiyle daha yüksek kapasite. Fikrin kökleri 2017'ye Shazeer ve arkadaşlarının 'Outrageously Large Neural Networks' makalesine dayanır, ama Mixtral 8x7B (Mistral AI) ve GPT-4 hakkındaki söylentilerle 2023-2024'te ana akıma girdi. MoE eğitimi yönlendirme dengesizliği ve yük dağıtımı gibi pratik zorluklar getirir; bu yüzden hâlâ aktif bir araştırma alanıdır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2017
Uzmanlar Karışımı (MoE)
Her tokende sadece bir alt küme uzman alt-ağı aktive eden, devasa kapasiteyi düşük çıkarım maliyetiyle birleştiren mimari.
- EN — İngilizce karşılığı
- Mixture of Experts (MoE)
- TR — Türkçe karşılığı
- Uzmanlar Karışımı (MoE)