Toksik çıktı, modelin nefret söylemi, taciz, hakaret veya diğer zararlı türde içerikler üretmesi durumunu tanımlar. Klasik kaynak, eğitim setinde temizlenmemiş forum ve sosyal medya verisidir; ama Prompt Injection yoluyla zorlanarak da ortaya çıkabilir. ChatGPT sonrası dönemde sağlayıcılar, toksisiteyi RLHF ve içerik filtreleriyle bastırmaya çalışıyor; tamamen ortadan kaldırmak ise mümkün değil. Bu yüzden değerlendirme tarafında otomatik toksisite skorları ve Red Teaming kampanyaları standart hale geldi.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Başlangıç · 2019
Toksik Çıktı (Toxic Output)
Saldırgan, nefret söylemi içeren veya istismara açık üretilmiş model yanıtları.
- EN — İngilizce karşılığı
- Toxic Output
- TR — Türkçe karşılığı
- Toksik Çıktı