Tokenleştirme

Tokenleştirme, ham metni bir LLM'in işleyebileceği Token dizisine çeviren ön işleme adımıdır. Modelin sözlüğü ve seçilen algoritmaya göre aynı cümle farklı sayıda token üretir; bu da hem maliyeti hem bağlam penceresi tüketimini doğrudan etkiler. Yaygın yaklaşımlar arasında BPE, WordPiece ve SentencePiece vardır; her biri Latin alfabesi dışındaki dillerde, kod parçalarında ve emoji gibi sembollerde farklı davranır. Türkçe gibi sondan eklemeli dillerde tokenleştirici tasarımı, model performansının görünmez ama belirleyici bir bileşenidir.