Residual Attention Ağı Nedir? (Artıksal Dikkat Ağı)

Artıksal bağlantıları dikkat mekanizmasıyla birleştirerek çok katmanlı ağlarda önemli özellikleri seçici biçimde öne çıkaran derin öğrenme mimarisi.

Residual Attention Ağı (RAN), Fei Wang ve ekibinin CVPR 2017'de tanıttığı, ResNet'in artıksal öğrenmesini dikkat mekanizmasıyla harmanlayan bir evrişimli sinir ağı mimarisidir. Her dikkat modülü iki dalla çalışır: özellik dönüşümü yapan trunk branch ve bu özellikler üzerinde yumuşak uzamsal maskeler oluşturan mask branch. Maske, trunk çıktısını seçici olarak ağırlıklandırarak gürültülü ya da alakasız özelliklerin baskılanmasını ve önemli bölgelerin ön plana çıkarılmasını sağlar. Artıksal öğrenme prensibiyle derinleştirilen ağ, CIFAR-10 (%3.90 hata), CIFAR-100 (%20.45 hata) ve ImageNet (Top-5 %4.8 hata) kıyaslama setlerinde o dönemin en iyi sonuçlarına ulaşmıştır.

Temel Kavram

Residual Attention Ağı (Residual Attention Network — RAN), dikkat mekanizmasını ResNet'in artıksal öğrenmesiyle bütünleştiren bir derin evrişimli sinir ağı mimarisidir. Fei Wang ve ekibi tarafından CVPR 2017'de tanıtılan bu mimari, dikkat modüllerini artıksal bağlantılar aracılığıyla entegre eder; böylece çok katmanlı yapılarda gradyan akışı bozulmadan derinlik artırılabilir.

Trunk ve Mask Branch Yapısı

Mimarinin çekirdeğini dikkat modülleri oluşturur. Her modül iki koldan oluşur: • **Trunk Branch (Gövde Kolu):** Artıksal bloklardan oluşan bu kol, girdiyi standart derin özellik temsili olarak dönüştürür. • **Mask Branch (Maske Kolu):** Aşağıdan yukarıya ve yukarıdan aşağıya iki geçişli akış yapısını kullanan bu kol, her piksel için [0, 1] arasında yumuşak bir dikkat maskesi üretir. Maske, trunk çıktısıyla eleman bazında çarpılarak alakasız ya da gürültülü özelliklerin baskılanması ve önemli bölgelerin öne çıkarılması sağlanır.

Dikkat Artıklığı Öğrenmesi

Modül çıktısı şu formülle ifade edilir: H(x) = (1 + M(x)) × T(x) — burada T(x) trunk çıktısını, M(x) dikkat maskesini temsil eder. Maske değeri 0 olduğunda H(x) = T(x) olur; yani ağ en kötü durumda orijinal trunk özelliklerini korur. Bu yapı, dikkat modüllerinin eğitimi zorlaştırmamasını ve yüzlerce katmana ölçeklenebilmesini sağlar.

Performans Sonuçları

Wang ve ekibi CVPR 2017'de üç büyük kıyaslama setindeki başarıyı ortaya koymuştur: • CIFAR-10: %3.90 hata oranı • CIFAR-100: %20.45 hata oranı • ImageNet: Top-5'te %4.8 hata (tek model, tek kırpma) Bu sonuçlar, dikkat mekanizmasının artıksal öğrenmeyle birleştirilmesinin görüntü sınıflandırmasında güçlü bir sinerji yarattığını göstermiştir.

Günümüzdeki Yeri ve Etkileri

RAN'ın trunk + mask mimarisi ve artıksal dikkat formülü, sonraki birçok çalışmaya ilham vermiştir. CBAM (Convolutional Block Attention Module) ve SENet gibi daha gelişmiş dikkat modülleri bu fikri genişletir. Tıbbi görüntüleme, nesne tespiti ve görsel soru yanıtlama gibi alanlarda uygulamaya konulmuştur. Transformer'ların yükselişiyle birlikte self-attention mekanizmaları ön plana geçse de RAN'ın getirdiği artıksal dikkat prensibi modern mimarilerde yaygın biçimde kullanılmaya devam etmektedir.