MEVZU N°128ISTANBULYEAR I — VOL. III
MEVZU N° ETIKET / VOL. 156
#tokenization
0 blog · 0 haber · 4 wiki
§03
04Wiki
§01Sözlük
BPE — Byte-Pair Encoding
Sık görülen karakter çiftlerini birleştirerek alt-kelime sözlüğü kuran tokenleştirme algoritması.
- EN
- Byte-Pair Encoding (BPE)
- TR
- BPE — Bayt Çifti Kodlama
§02Sözlük
WordPiece
Google'ın BERT için kullandığı, BPE'ye benzer ama olasılık tabanlı çalışan alt-kelime algoritması.
- EN
- WordPiece
- TR
- WordPiece
§03Sözlük
SentencePiece
Boşluk dahil her şeyi karakter olarak gören, dilden bağımsız Google tokenleştirme kütüphanesi.
- EN
- SentencePiece
- TR
- SentencePiece
§04Sözlük★
Token
Bir metni LLM'in işleyebileceği parçalara ayırma birimi.
- EN
- Token
- TR
- Token