Kayan Pencere Dikkati (Kayan Pencere Dikkati (Sliding Window Attention))

Her tokenin yalnızca yakın komşularına dikkat ederek uzun dizileri verimli işleyen attention mekanizması.

Kayan Pencere Dikkati (Sliding Window Attention, SWA), transformer mimarisinde her tokenın bütün diziye değil yalnızca belirli bir pencere boyutundaki komşu tokenlara dikkat ettiği verimli bir attention yöntemidir. Klasik tam dikkat (full self-attention) O(n²) bellek ve hesaplama karmaşıklığına yol açarken, kayan pencere yaklaşımı bunu O(n·w) düzeyine indirir; burada w, pencere boyutunu gösterir. Mistral 7B bu mekanizmayı temel dikkat katmanlarında benimseyerek hem çıkarım hızını artırmış hem de uzun bağlam işleme kapasitesini genişletmiştir. Longformer ise yerel kayan pencereyi, belgelerin tamamını temsil eden global dikkat tokenleriyle birleştirerek soru-cevap ve özetleme görevlerinde başarılı sonuçlar elde etmiştir.

Nasıl Çalışır?

Her token, dizideki konumundan itibaren ±w/2 uzaklığındaki tokenlara dikkat eder; pencere dışındaki tokenlar maskelenir. Bu sayede: • **Bellek tasarrufu:** Tüm dizinin attention matrisini belleğe almak yerine yalnızca pencere içindeki tokenlar işlenir. • **Hesaplama hızı:** Uzun dizilerde tam dikkatten çok daha hızlı çalışır. • **Yerel bağlam:** Dil modelleme için yerel bağlam genellikle en bilgi verici kısımdır; kayan pencere bu önceliklendirmeyi yansıtır. Bazı mimarilerde belirli katmanlar tam dikkat, diğerleri kayan pencere kullanır; bu karma yapı hem yerel hem uzak bağlamı yakalar.