tag dil-modeli

Transformer-XL (Transformer-XL (Uzun Bağlamlı Dönüştürücü Mimarisi))

Bu sayfada dil-modeli (Transformer-XL (Transformer-XL (Uzun Bağlamlı Dönüştürücü Mimarisi))) etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.

Transformer-XL, Zihang Dai ve ekibinin 2019 yılında Google Brain ile Carnegie Mellon Üniversitesi iş birliğiyle geliştirdiği, standart Transformer mimarisinin sabit bağlam uzunluğu kısıtlamasını aşmaya yönelik bir dil modeli mimarisidir. "XL" kısaltması, "eXtra Long" (ekstra uzun) anlamına gelir ve modelin uzun mesafeli bağımlılıkları modelleyebilme kapasitesini yansıtır. Klasik Transformer modelleri metni sabit uzunlukta bölütlere (segment) böler ve her bölütü birbirinden tamamen bağımsız biçimde işler; bu durum bölüt sınırlarında bağlam kopukluğuna yol açar. Transformer-XL bu sorunu iki temel yenilikle çözer. İlk yenilik bölüt düzeyinde özyinelemedir (segment-level recurrence): Model, önceki bölütün her katmana ait gizli durum vektörlerini önbellekte tutar. Yeni bölüt işlenirken dikkat mekanizması hem mevcut bölütün hem de önbellekteki önceki bölütün temsillerine erişir. Bu sayede bilgi bölütler arasında aktarılabilir ve N katmanlı bir modelde etkili bağlam penceresi teorik olarak N × bölüt uzunluğuna kadar genişleyebilir. İkinci yenilik göreli konum kodlamasıdır (relative positional encoding): Standart Transformer'da mutlak konum kodlamaları kullanılır. Ancak önbelleğe alınan farklı bölütlerin token'ları aynı mutlak konum indeksini paylaşabilir ve bu durum anlam karışıklığına yol açar. Göreli kodlama, "bu token 5. konumdadır" yerine "bu token diğerinden 3 adım uzakta" bilgisini temsil eder; dikkat skoru dört ayrı bileşene ayrılarak öğrenilebilir ağırlıklarla hesaplanır. WikiText-103, enwiki8 ve One Billion Word kıyaslamalarında döneminin en iyi sonuçlarına ulaşan Transformer-XL, standart Transformer'a kıyasla yüzde 291 ile 447 daha uzun bağımlılıkları modelleyebildiğini kanıtlamıştır. Göreli konum kodlama şeması daha sonra XLNet, T5 ve DeBERTa gibi önemli modellerin temeline alınmıştır.

memory

Transformer-XL (Transformer-XL (Uzun Bağlamlı Dönüştürücü Mimarisi))

Transformer-XL, Zihang Dai ve ekibinin 2019 yılında Google Brain ile Carnegie Mellon Üniversitesi iş birliğiyle geliştirdiği, standart Transformer mimarisinin sabit bağlam uzunluğu kısıtlamasını aşmaya yönelik bir dil modeli mimarisidir. "XL" kısaltması, "eXtra Long" (ekstra uzun) anlamına gelir ve modelin uzun mesafeli bağımlılıkları modelleyebilme kapasitesini yansıtır. Klasik Transformer modelleri metni sabit uzunlukta bölütlere (segment) böler ve her bölütü birbirinden tamamen bağımsız biçimde işler; bu durum bölüt sınırlarında bağlam kopukluğuna yol açar. Transformer-XL bu sorunu iki temel yenilikle çözer. İlk yenilik bölüt düzeyinde özyinelemedir (segment-level recurrence): Model, önceki bölütün her katmana ait gizli durum vektörlerini önbellekte tutar. Yeni bölüt işlenirken dikkat mekanizması hem mevcut bölütün hem de önbellekteki önceki bölütün temsillerine erişir. Bu sayede bilgi bölütler arasında aktarılabilir ve N katmanlı bir modelde etkili bağlam penceresi teorik olarak N × bölüt uzunluğuna kadar genişleyebilir. İkinci yenilik göreli konum kodlamasıdır (relative positional encoding): Standart Transformer'da mutlak konum kodlamaları kullanılır. Ancak önbelleğe alınan farklı bölütlerin token'ları aynı mutlak konum indeksini paylaşabilir ve bu durum anlam karışıklığına yol açar. Göreli kodlama, "bu token 5. konumdadır" yerine "bu token diğerinden 3 adım uzakta" bilgisini temsil eder; dikkat skoru dört ayrı bileşene ayrılarak öğrenilebilir ağırlıklarla hesaplanır. WikiText-103, enwiki8 ve One Billion Word kıyaslamalarında döneminin en iyi sonuçlarına ulaşan Transformer-XL, standart Transformer'a kıyasla yüzde 291 ile 447 daha uzun bağımlılıkları modelleyebildiğini kanıtlamıştır. Göreli konum kodlama şeması daha sonra XLNet, T5 ve DeBERTa gibi önemli modellerin temeline alınmıştır.

arrow_forward