Transformer-XL (Transformer-XL (Uzun Bağlamlı Dönüştürücü Mimarisi))

Transformer-XL, bölütler arası özyineleme ve göreli konum kodlamasıyla uzun bağlam bağımlılıklarını modelleyen dil mimarisidir.

Transformer-XL, Zihang Dai ve ekibinin 2019 yılında Google Brain ile Carnegie Mellon Üniversitesi iş birliğiyle geliştirdiği, standart Transformer mimarisinin sabit bağlam uzunluğu kısıtlamasını aşmaya yönelik bir dil modeli mimarisidir. "XL" kısaltması, "eXtra Long" (ekstra uzun) anlamına gelir ve modelin uzun mesafeli bağımlılıkları modelleyebilme kapasitesini yansıtır. Klasik Transformer modelleri metni sabit uzunlukta bölütlere (segment) böler ve her bölütü birbirinden tamamen bağımsız biçimde işler; bu durum bölüt sınırlarında bağlam kopukluğuna yol açar. Transformer-XL bu sorunu iki temel yenilikle çözer. İlk yenilik bölüt düzeyinde özyinelemedir (segment-level recurrence): Model, önceki bölütün her katmana ait gizli durum vektörlerini önbellekte tutar. Yeni bölüt işlenirken dikkat mekanizması hem mevcut bölütün hem de önbellekteki önceki bölütün temsillerine erişir. Bu sayede bilgi bölütler arasında aktarılabilir ve N katmanlı bir modelde etkili bağlam penceresi teorik olarak N × bölüt uzunluğuna kadar genişleyebilir. İkinci yenilik göreli konum kodlamasıdır (relative positional encoding): Standart Transformer'da mutlak konum kodlamaları kullanılır. Ancak önbelleğe alınan farklı bölütlerin token'ları aynı mutlak konum indeksini paylaşabilir ve bu durum anlam karışıklığına yol açar. Göreli kodlama, "bu token 5. konumdadır" yerine "bu token diğerinden 3 adım uzakta" bilgisini temsil eder; dikkat skoru dört ayrı bileşene ayrılarak öğrenilebilir ağırlıklarla hesaplanır. WikiText-103, enwiki8 ve One Billion Word kıyaslamalarında döneminin en iyi sonuçlarına ulaşan Transformer-XL, standart Transformer'a kıyasla yüzde 291 ile 447 daha uzun bağımlılıkları modelleyebildiğini kanıtlamıştır. Göreli konum kodlama şeması daha sonra XLNet, T5 ve DeBERTa gibi önemli modellerin temeline alınmıştır.

Sabit Bağlam Sorunu ve Transformer-XL'in Çözümü

Standart Transformer mimarisi, metin işlerken sabit uzunlukta bölütler kullanır ve her bölütü bağımsız biçimde değerlendirir. Bu durum, iki önemli sorun doğurur: birincisi, bölüt sınırında yer alan bir cümle önceki içerikten kopuk kalır; ikincisi, modelin uzun mesafeli bağımlılıkları (örneğin bir paragraf başındaki referans) yakalama kapasitesi, bölüt boyutuyla sınırlı kalır. Transformer-XL, bölüt düzeyinde özyineleme mekanizmasıyla bu sorunu köklü biçimde çözer. Model, bir önceki bölüte ait gizli durum vektörlerini katman katman önbellekte saklar. Yeni bölüt işlenirken her Transformer katmanı hem mevcut bölütün hem de önbelleğe alınan önceki bölütün çıktılarına dikkat edebilir. Önbellek gradyan hesabına dahil edilmez; bu nedenle RNN'lerde görülen kaybolan gradyan sorunu yaşanmaz. N katmanlı bir modelde etkili bağlam penceresi teorik olarak N × bölüt_uzunluğu token'a kadar genişleyebilir.

Göreli Konum Kodlaması

Standart Transformer'da her token'a mutlak bir konum bilgisi atanır. Ancak bölütler arası önbellekleme kullanıldığında, farklı bölütlerdeki token'lar aynı mutlak konum indeksini paylaşabilir; bu durum modelin konum bilgisini yanlış yorumlamasına yol açar. Transformer-XL, göreli konum kodlamasını tanıtarak bu çelişkiyi giderir. Bu yaklaşımda dikkat skoru dört bileşene ayrılır: içerik-içerik etkileşimi, içerik-konum etkileşimi, konum-içerik etkileşimi ve global konum önyargısı. Her bileşen ayrı öğrenilebilir parametrelerle temsil edilir ve token'ların birbirinden kaç adım uzakta olduğu dinamik olarak hesaplanır. Bu yenilik, birden fazla model tarafından benimsenmiş; XLNet, T5 ve DeBERTa göreli konum kodlamasını kendi mimarilerine entegre etmiştir.

Temel Performans Göstergeleri

  • check_circle WikiText-103 Perplexity: Önceki SOTA 20.5'ten 18.3'e indirilerek o döneme kadar kaydedilen en büyük iyileşme sağlandı.
  • check_circle enwiki8 Bit/Karakter (bpc): 1.06'dan 0.99'a inerek karakter düzeyinde dil modellemede çığır açtı.
  • check_circle Bağlam Uzunluğu: Standart Transformer'a kıyasla %291–447, LSTM'e kıyasla %80–133 daha uzun bağımlılıklar modellendi.
  • check_circle Çıkarım Hızı: Otoregresif metin üretiminde önbellekleme sayesinde 1.800 kata kadar hız artışı sağlandı.
  • check_circle Parametre Verimliliği: 12 katmanlı Transformer-XL, 64 katmanlı standart Transformer ile eşdeğer performans gösterdi.

XLNet ve Sonraki Modellere Etkisi

Transformer-XL'in en önemli miraslarından biri, doğrudan XLNet'in omurgasını oluşturmasıdır. Yang ve ekibinin 2019'da geliştirdiği XLNet, Transformer-XL'in bölüt özyinelemesi ve göreli konum kodlamasını olduğu gibi benimseyip üzerine permütasyon tabanlı eğitim hedefi ekledi. Bu sayede XLNet, hem otoregresif hem de iki yönlü bağlam bilgisini aynı anda modelleyerek BERT ve GPT-2'yi 18 NLP görevinde geride bıraktı. Google Brain ekibinin T5 modeli de göreli konum kodlamasından esinlenmiş; Microsoft'un DeBERTa'sı ise bu kodlama şemasını daha da geliştirmiştir. Transformer-XL, mimari bir araç olmanın ötesinde, uzun bağlam modellemesi alanındaki yöntemleri kavramsal olarak da dönüştürmüştür.

Sıkça Sorulan Sorular

  • check_circle Transformer-XL ile standart Transformer arasındaki temel fark nedir?: Standart Transformer her bölütü izole biçimde işlerken Transformer-XL, önceki bölütlerin gizli durumlarını önbelleğe alarak bölütler arasında bilgi akışı sağlar. Bu sayede çok daha uzun mesafeli bağımlılıklar modellenebilir.
  • check_circle XLNet ile Transformer-XL arasındaki ilişki nedir?: XLNet, Transformer-XL'i doğrudan temel mimari olarak kullanır ve üzerine permütasyon tabanlı bir eğitim hedefi ekler. Transformer-XL bir mimari sunarken XLNet bu mimariyi kullanan önceden eğitilmiş bir dil modelidir.
  • check_circle Göreli konum kodlaması neden gereklidir?: Önbellekteki farklı bölütlerin token'ları aynı mutlak konum indeksini paylaşabilir; bu durum anlam karışıklığına yol açar. Göreli konum kodlaması, token'lar arasındaki uzaklığı temsil ettiği için bölütler arası dikkat mekanizmasını tutarlı kılar.
  • check_circle Transformer-XL hangi görevlerde kullanılır?: Özellikle uzun belge özetleme, hukuki ve tıbbi metin işleme, kitap düzeyinde dil modellemesi ve karakter düzeyinde metin üretimi gibi uzun bağlam gerektiren görevlerde tercih edilir.