MEVZU N°12808.05.2026ISTANBULYEAR I — VOL. III

tag.detailKicker

#eval

tag.detailSubtitle

§03

tag.wikiSection

§01wiki.types.glossary

ROUGE

Özetleme görevlerinde n-gram ve dizi örtüşmesini ölçen klasik değerlendirme metriği.

EN: ROUGE
TR: ROUGE

§02wiki.types.glossary

Lmsys Chatbot Arena

İki modelin kör eşleştirmesini insan tercihine göre puanlayan kamuya açık eval platformu.

EN: Lmsys Chatbot Arena
TR: Lmsys Chatbot Arena

§03wiki.types.glossary

Eval — Değerlendirme

Bir modelin ya da sistemin önceden tanımlı kriterlere göre puanlandığı test seti.

EN: Eval
TR: Eval — Değerlendirme

§04wiki.types.glossary

Kıyaslama (Benchmark)

Modelleri karşılaştırmak için kullanılan standart test seti ve değerlendirme protokolü.

EN: Benchmark
TR: Kıyaslama (Benchmark)

§05wiki.types.glossary

Halüsinasyon Oranı

Bir modelin uydurma ya da yanlış bilgi üretme sıklığını ölçen değerlendirme metriği.

EN: Hallucination Rate
TR: Halüsinasyon Oranı

§06wiki.types.glossary

BLEU

Makine çevirisini referans çeviriyle n-gram örtüşmesi üzerinden değerlendiren klasik metrik.

EN: BLEU
TR: BLEU

§07wiki.types.glossary

MMLU

57 alanda bilgi ve akıl yürütmeyi ölçen, çoktan seçmeli geniş kapsamlı bir benchmark.

EN: MMLU
TR: MMLU

§08wiki.types.glossary

GSM8K

İlkokul seviyesi matematik problemleriyle adım adım akıl yürütmeyi ölçen benchmark.

EN: GSM8K
TR: GSM8K

§09wiki.types.glossary

Elo Reytingi

Satrançtan gelen, ikili karşılaşma sonuçlarından göreli güç skoru çıkaran sistem.

EN: Elo Rating
TR: Elo Reytingi

§10wiki.types.glossary

MBPP

Google'ın yayımladığı, neredeyse 1.000 temel Python problemi içeren kod benchmark'ı.

EN: MBPP
TR: MBPP

§11wiki.types.glossary

İkili Karşılaştırma

İki modelin aynı sorudaki cevaplarından hangisinin daha iyi olduğuna karar verilen eval yöntemi.

EN: Pairwise Comparison
TR: İkili Karşılaştırma

§12wiki.types.glossary

Yargıç Olarak LLM

Bir LLM'in başka bir modelin çıktısını değerlendirmesi için kullanıldığı eval yöntemi.

EN: LLM-as-Judge
TR: Yargıç Olarak LLM

§13wiki.types.glossary

Red Teaming

Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.

EN: Red Teaming
TR: Red Teaming

§14wiki.types.glossary

HumanEval

Python fonksiyonlarını birim testleriyle değerlendiren, OpenAI'nin tanıttığı kod benchmark'ı.

EN: HumanEval
TR: HumanEval

§15wiki.types.glossary

Değerlendirme Döngüsü

Bir ajanın ürettiği çıktıyı sürekli olarak ölçüp düzelten geri bildirim döngüsü.

EN: Evaluation Loop
TR: Değerlendirme Döngüsü