Token, bir Transformer modelinin metni işlerken kullandığı en küçük birimdir; tam bir kelime, bir kelime parçası ya da tek bir karakter olabilir. Modern LLM'ler genellikle BPE (Byte-Pair Encoding) veya SentencePiece gibi alt-kelime tokenleştirme algoritmaları kullanır, böylece nadir ve görülmemiş kelimeleri bile anlamlı parçalara bölerek temsil edebilir. Her token, eğitim sırasında öğrenilmiş bir Embedding vektörüne eşlenir; modelin tüm bilgisi aslında bu vektör uzayında saklı. Bağlam pencerelerinden API maliyetlerine kadar her şey 'token' birimi üzerinden ölçüldüğü için, tokenleştirmeyi anlamak LLM mühendisliğinin temel disiplinidir.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Başlangıç · 2017
Token
Bir metni LLM'in işleyebileceği parçalara ayırma birimi.
- EN — İngilizce karşılığı
- Token
- TR — Türkçe karşılığı
- Token