Byte Pair Encoding (Byte Pair Encoding)
Byte Pair Encoding (BPE), büyük dil modellerinde ham metni sayısal token'lara dönüştürmek için kullanılan alt kelime (subword) tokenizasyon algoritmasıdır. Sıkça birlikte görülen karakter çiftlerini tekrarlayan birleştirmelerle yeni birimler oluşturarak kelime dağarcığını sınırlı tutar ve bilinmeyen kelimeleri alt parçalara bölerek ele alır.