Sabit Bağlam Sorunu ve Transformer-XL'in Çözümü
Standart Transformer mimarisi, metin işlerken sabit uzunlukta bölütler kullanır ve her bölütü bağımsız biçimde değerlendirir. Bu durum, iki önemli sorun doğurur: birincisi, bölüt sınırında yer alan bir cümle önceki içerikten kopuk kalır; ikincisi, modelin uzun mesafeli bağımlılıkları (örneğin bir paragraf başındaki referans) yakalama kapasitesi, bölüt boyutuyla sınırlı kalır. Transformer-XL, bölüt düzeyinde özyineleme mekanizmasıyla bu sorunu köklü biçimde çözer. Model, bir önceki bölüte ait gizli durum vektörlerini katman katman önbellekte saklar. Yeni bölüt işlenirken her Transformer katmanı hem mevcut bölütün hem de önbelleğe alınan önceki bölütün çıktılarına dikkat edebilir. Önbellek gradyan hesabına dahil edilmez; bu nedenle RNN'lerde görülen kaybolan gradyan sorunu yaşanmaz. N katmanlı bir modelde etkili bağlam penceresi teorik olarak N × bölüt_uzunluğu token'a kadar genişleyebilir.
Göreli Konum Kodlaması
Standart Transformer'da her token'a mutlak bir konum bilgisi atanır. Ancak bölütler arası önbellekleme kullanıldığında, farklı bölütlerdeki token'lar aynı mutlak konum indeksini paylaşabilir; bu durum modelin konum bilgisini yanlış yorumlamasına yol açar. Transformer-XL, göreli konum kodlamasını tanıtarak bu çelişkiyi giderir. Bu yaklaşımda dikkat skoru dört bileşene ayrılır: içerik-içerik etkileşimi, içerik-konum etkileşimi, konum-içerik etkileşimi ve global konum önyargısı. Her bileşen ayrı öğrenilebilir parametrelerle temsil edilir ve token'ların birbirinden kaç adım uzakta olduğu dinamik olarak hesaplanır. Bu yenilik, birden fazla model tarafından benimsenmiş; XLNet, T5 ve DeBERTa göreli konum kodlamasını kendi mimarilerine entegre etmiştir.
Temel Performans Göstergeleri
- check_circle WikiText-103 Perplexity: Önceki SOTA 20.5'ten 18.3'e indirilerek o döneme kadar kaydedilen en büyük iyileşme sağlandı.
- check_circle enwiki8 Bit/Karakter (bpc): 1.06'dan 0.99'a inerek karakter düzeyinde dil modellemede çığır açtı.
- check_circle Bağlam Uzunluğu: Standart Transformer'a kıyasla %291–447, LSTM'e kıyasla %80–133 daha uzun bağımlılıklar modellendi.
- check_circle Çıkarım Hızı: Otoregresif metin üretiminde önbellekleme sayesinde 1.800 kata kadar hız artışı sağlandı.
- check_circle Parametre Verimliliği: 12 katmanlı Transformer-XL, 64 katmanlı standart Transformer ile eşdeğer performans gösterdi.
XLNet ve Sonraki Modellere Etkisi
Transformer-XL'in en önemli miraslarından biri, doğrudan XLNet'in omurgasını oluşturmasıdır. Yang ve ekibinin 2019'da geliştirdiği XLNet, Transformer-XL'in bölüt özyinelemesi ve göreli konum kodlamasını olduğu gibi benimseyip üzerine permütasyon tabanlı eğitim hedefi ekledi. Bu sayede XLNet, hem otoregresif hem de iki yönlü bağlam bilgisini aynı anda modelleyerek BERT ve GPT-2'yi 18 NLP görevinde geride bıraktı. Google Brain ekibinin T5 modeli de göreli konum kodlamasından esinlenmiş; Microsoft'un DeBERTa'sı ise bu kodlama şemasını daha da geliştirmiştir. Transformer-XL, mimari bir araç olmanın ötesinde, uzun bağlam modellemesi alanındaki yöntemleri kavramsal olarak da dönüştürmüştür.
Sıkça Sorulan Sorular
- check_circle Transformer-XL ile standart Transformer arasındaki temel fark nedir?: Standart Transformer her bölütü izole biçimde işlerken Transformer-XL, önceki bölütlerin gizli durumlarını önbelleğe alarak bölütler arasında bilgi akışı sağlar. Bu sayede çok daha uzun mesafeli bağımlılıklar modellenebilir.
- check_circle XLNet ile Transformer-XL arasındaki ilişki nedir?: XLNet, Transformer-XL'i doğrudan temel mimari olarak kullanır ve üzerine permütasyon tabanlı bir eğitim hedefi ekler. Transformer-XL bir mimari sunarken XLNet bu mimariyi kullanan önceden eğitilmiş bir dil modelidir.
- check_circle Göreli konum kodlaması neden gereklidir?: Önbellekteki farklı bölütlerin token'ları aynı mutlak konum indeksini paylaşabilir; bu durum anlam karışıklığına yol açar. Göreli konum kodlaması, token'lar arasındaki uzaklığı temsil ettiği için bölütler arası dikkat mekanizmasını tutarlı kılar.
- check_circle Transformer-XL hangi görevlerde kullanılır?: Özellikle uzun belge özetleme, hukuki ve tıbbi metin işleme, kitap düzeyinde dil modellemesi ve karakter düzeyinde metin üretimi gibi uzun bağlam gerektiren görevlerde tercih edilir.