Uzmanlar Karışımı (MoE)

Mixture of Experts (MoE), bir Transformer içinde çok sayıda paralel 'uzman' alt-ağ tutup her Token için yalnızca birkaçını aktive eden bir mimari ailesidir. Bu sayede toplam parametre sayısı muazzam olabilir (örneğin Mixtral'de 47B), fakat her token için fiilen çalışan parametre çok daha azdır; sonuç, daha düşük çıkarım maliyetiyle daha yüksek kapasite. Fikrin kökleri 2017'ye Shazeer ve arkadaşlarının 'Outrageously Large Neural Networks' makalesine dayanır, ama Mixtral 8x7B (Mistral AI) ve GPT-4 hakkındaki söylentilerle 2023-2024'te ana akıma girdi. MoE eğitimi yönlendirme dengesizliği ve yük dağıtımı gibi pratik zorluklar getirir; bu yüzden hâlâ aktif bir araştırma alanıdır.