Tokenization (Tokenizasyon (Parçalara Ayırma))

Tokenizasyon, doğal dil işleme (NLP) ve Büyük Dil Modellerinde (LLM), insan dilindeki metinlerin bilgisayarın işleyebileceği matematiksel birimlere (token) bölünmesi işlemidir.

Tokenizasyon, doğal dil işleme (NLP) ve Büyük Dil Modellerinde (LLM), insan dilindeki metinlerin bilgisayarın işleyebileceği matematiksel birimlere (token) bölünmesi işlemidir. Yapay zeka kelimeleri bizim gibi okumaz; onları hecelere, harflere veya kelime köklerine parçalayarak (token) her birine benzersiz bir kimlik numarası (ID) atar. Bir cümlenin yapay zekaya yedirilmeden önceki ilk çiğneme adımıdır.

content_cut Token Nedir ve Nasıl Bölünür?

Bir token; tam bir kelime, bir kelimenin yarısı veya tek bir harf olabilir. Örneğin İngilizcede 'apple' genellikle tek bir token iken, 'unbelievable' kelimesi 'un', 'believ', 'able' şeklinde alt-kelime (sub-word) tokenlerine bölünebilir. Tokenizasyon algoritmaları (örn: BPE - Byte Pair Encoding), dilde en çok tekrar eden karakter dizilerini tek bir token yapmaya çalışarak modelin hafıza verimliliğini maksimize eder.

Tokenizasyonun Etkileri

attach_money Maliyet ve Fiyatlandırma

OpenAI, Anthropic gibi tüm yapay zeka şirketleri API kullanımlarını kelime başına değil, token başına ücretlendirir (örn: 1 Milyon token = $10).

translate Dil Eşitsizliği (Türkçe vs İngilizce)

Tokenizasyon algoritmaları İngilizce ağırlıklı verilerle eğitildiği için Türkçe gibi sondan eklemeli dillerde kelimeler çok fazla parçaya bölünür. İngilizce bir cümle 10 token tutarken, aynı cümlenin Türkçe çevirisi 25 token tutabilir. Bu da Türkçeyi LLM'lerde hem daha pahalı hem de daha yavaş yapar.

spellcheck Kelime Oyunlarındaki Başarısızlık

ChatGPT'nin 'Strawberry kelimesinde kaç tane R var?' sorusuna yanlış cevap vermesinin sebebi aptal olması değil, tokenizasyondur. Modeller metni harf harf değil, token kimlikleri (ID: 3456) olarak gördüğü için harfleri sayamazlar.

quiz Sıkça Sorulan Sorular (FAQ)

  • check_circle 1 Token kaç kelimeye eşittir?: Genel bir kural olarak İngilizcede 1 token, bir kelimenin 3/4'üne eşittir. Yani 100 token yaklaşık 75 kelimedir. Ancak kodlama veya farklı dillerde bu oran büyük ölçüde değişir.
  • check_circle BPE (Byte Pair Encoding) nedir?: En popüler tokenizasyon algoritmasıdır. Verideki yan yana gelen karakterleri tarar ve en sık birlikte bulunanları tek bir birim (token) haline getirerek sözlüğü optimize eder.