Léim chuig ábhar
MEVZU N°128ISTANBUL

tag.detailKicker

#eval

tag.detailSubtitle

§03

tag.wikiSection

15
§01wiki.types.glossary

ROUGE

Özetleme görevlerinde n-gram ve dizi örtüşmesini ölçen klasik değerlendirme metriği.

EN
ROUGE
TR
ROUGE
§02wiki.types.glossary

Lmsys Chatbot Arena

İki modelin kör eşleştirmesini insan tercihine göre puanlayan kamuya açık eval platformu.

EN
Lmsys Chatbot Arena
TR
Lmsys Chatbot Arena
§03wiki.types.glossary

Eval — Değerlendirme

Bir modelin ya da sistemin önceden tanımlı kriterlere göre puanlandığı test seti.

EN
Eval
TR
Eval — Değerlendirme
§04wiki.types.glossary

Kıyaslama (Benchmark)

Modelleri karşılaştırmak için kullanılan standart test seti ve değerlendirme protokolü.

EN
Benchmark
TR
Kıyaslama (Benchmark)
§05wiki.types.glossary

Halüsinasyon Oranı

Bir modelin uydurma ya da yanlış bilgi üretme sıklığını ölçen değerlendirme metriği.

EN
Hallucination Rate
TR
Halüsinasyon Oranı
§06wiki.types.glossary

BLEU

Makine çevirisini referans çeviriyle n-gram örtüşmesi üzerinden değerlendiren klasik metrik.

EN
BLEU
TR
BLEU
§07wiki.types.glossary

MMLU

57 alanda bilgi ve akıl yürütmeyi ölçen, çoktan seçmeli geniş kapsamlı bir benchmark.

EN
MMLU
TR
MMLU
§08wiki.types.glossary

GSM8K

İlkokul seviyesi matematik problemleriyle adım adım akıl yürütmeyi ölçen benchmark.

EN
GSM8K
TR
GSM8K
§09wiki.types.glossary

Elo Reytingi

Satrançtan gelen, ikili karşılaşma sonuçlarından göreli güç skoru çıkaran sistem.

EN
Elo Rating
TR
Elo Reytingi
§10wiki.types.glossary

MBPP

Google'ın yayımladığı, neredeyse 1.000 temel Python problemi içeren kod benchmark'ı.

EN
MBPP
TR
MBPP
§11wiki.types.glossary

İkili Karşılaştırma

İki modelin aynı sorudaki cevaplarından hangisinin daha iyi olduğuna karar verilen eval yöntemi.

EN
Pairwise Comparison
TR
İkili Karşılaştırma
§12wiki.types.glossary

Yargıç Olarak LLM

Bir LLM'in başka bir modelin çıktısını değerlendirmesi için kullanıldığı eval yöntemi.

EN
LLM-as-Judge
TR
Yargıç Olarak LLM
§13wiki.types.glossary

Red Teaming

Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.

EN
Red Teaming
TR
Red Teaming
§14wiki.types.glossary

HumanEval

Python fonksiyonlarını birim testleriyle değerlendiren, OpenAI'nin tanıttığı kod benchmark'ı.

EN
HumanEval
TR
HumanEval
§15wiki.types.glossary

Değerlendirme Döngüsü

Bir ajanın ürettiği çıktıyı sürekli olarak ölçüp düzelten geri bildirim döngüsü.

EN
Evaluation Loop
TR
Değerlendirme Döngüsü