MMLU | AI Mevzuları

MMLU (Massive Multitask Language Understanding), Hendrycks ve arkadaşlarının 2021'de yayımladığı, matematik, hukuk, tarih, tıp gibi 57 alanda yaklaşık 16.000 çoktan seçmeli soru içeren genel bilgi Benchmark'ıdır. Frontier modelleri kıyaslamak için onlarca rapora konu oldu; GPT-3.5 düzeyindeki modellerin %70 civarından, GPT-4 ve sonrası modellerin %85+ seviyelerine çıkması alandaki ilerlemeyi simgeliyordu. Modellerin zirveye yaklaşmasıyla MMLU-Pro (2024) gibi daha sıkı varyantlar gündeme geldi. Yine de bir modelin temel bilgi kapsamını ölçmek için en sık atıfta bulunulan referanslardan biridir.