Toksik Çıktı (Toxic Output)

Toksik çıktı, modelin nefret söylemi, taciz, hakaret veya diğer zararlı türde içerikler üretmesi durumunu tanımlar. Klasik kaynak, eğitim setinde temizlenmemiş forum ve sosyal medya verisidir; ama Prompt Injection yoluyla zorlanarak da ortaya çıkabilir. ChatGPT sonrası dönemde sağlayıcılar, toksisiteyi RLHF ve içerik filtreleriyle bastırmaya çalışıyor; tamamen ortadan kaldırmak ise mümkün değil. Bu yüzden değerlendirme tarafında otomatik toksisite skorları ve Red Teaming kampanyaları standart hale geldi.