Nasıl Çalışır?
Her token, dizideki konumundan itibaren ±w/2 uzaklığındaki tokenlara dikkat eder; pencere dışındaki tokenlar maskelenir. Bu sayede: • **Bellek tasarrufu:** Tüm dizinin attention matrisini belleğe almak yerine yalnızca pencere içindeki tokenlar işlenir. • **Hesaplama hızı:** Uzun dizilerde tam dikkatten çok daha hızlı çalışır. • **Yerel bağlam:** Dil modelleme için yerel bağlam genellikle en bilgi verici kısımdır; kayan pencere bu önceliklendirmeyi yansıtır. Bazı mimarilerde belirli katmanlar tam dikkat, diğerleri kayan pencere kullanır; bu karma yapı hem yerel hem uzak bağlamı yakalar.