Eval, bir modelin ya da AI sisteminin belirli bir görevdeki başarısını sayısal olarak ölçen test setine ya da koşum çatısına verilen genel addır. OpenAI'nin 2022'de yayımladığı "Evals" kütüphanesi terimi popülerleştirdi; bugün her ciddi AI ürünü kendi özel eval'lerini yazıyor. Hem hazır akademik Benchmark'lar — MMLU, HumanEval, GSM8K — hem de "Bizim ürünümüzün gerçek kullanıcı taleplerine cevabı" gibi alana özgü eval'ler vardır. "Eval'siz LLM ürünü, test'siz yazılım gibidir" sözü artık AI Engineering camiasının ortak söyleminin parçası.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Başlangıç · 2022
Eval — Değerlendirme
Bir modelin ya da sistemin önceden tanımlı kriterlere göre puanlandığı test seti.
- EN — İngilizce karşılığı
- Eval
- TR — Türkçe karşılığı
- Eval — Değerlendirme