Kapsül Nedir?
Geleneksel evrişimli sinir ağlarındaki (CNN) nöronlar tek bir sayısal değer (skaler) üretir ve bu değer nesnenin o özelliği taşıyıp taşımadığını belirtir. Kapsül ağlarındaki kapsüller ise bir vektör çıktısı üreterek nesnenin hem varlık olasılığını hem de konum, ölçek, yön ve deformasyon gibi durum özelliklerini (pose) birlikte kodlar. Bu sayede 'bu resimde bir yüz var mı?' sorusunun yanıtıyla 'bu yüz kaç derecelik açıyla bakıyor?' bilgisi aynı birimden elde edilebilir.
Dinamik Yönlendirme (Dynamic Routing by Agreement)
Kapsüller arasındaki bilgi aktarımı, iteratif bir uyum algoritmasıyla gerçekleşir. Alt katmandaki bir kapsül, çıktısını üst katmandaki hangi kapsüle göndereceğini kuplaj katsayıları aracılığıyla belirler. Bu katsayılar başlangıçta eşit ağırlıkla dağıtılır; ardından üç iterasyon boyunca alt kapsülün tahminiyle üst kapsülün aktivasyonu arasındaki uyuma göre güncellenir. Birbirine uygun tahminleri olan kapsüller daha güçlü bağ kurar ve ağ bu yolla parça-bütün ilişkisini öğrenir.
CNN ile Karşılaştırma
CNN'lerdeki maksimum havuzlama, yalnızca en güçlü özelliği seçerken nesnenin tam konumunu atar; bu durum bakış açısı değişikliklerine karşı kör bir ağa (invariant) yol açar. Kapsül ağları, havuzlama yerine dinamik yönlendirme kullanarak uzaysal bilgiyi korur ve farklı açılara/ölçeklere dayanıklı (equivariant) temsiller öğrenir. Öte yandan bu avantaj hesaplama maliyetiyle gelir: dinamik yönlendirme büyük ölçekli görevlerde eğitimi önemli ölçüde yavaşlatır.
Uygulama Alanları ve Sınırlamalar
Kapsül ağları tıbbi görüntüleme (histopatoloji, BT taramaları), nesne tanıma ve robotik görme alanlarında araştırılmaktadır. MNIST veri setinde ~%0,25 hata oranıyla güçlü sonuçlar elde etmiştir. Ancak ImageNet gibi büyük ölçekli kümeler üzerinde ResNet ve Transformer tabanlı mimarilerin gerisinde kalmış; yavaş eğitim süresi ve ölçeklenebilirlik sorunları pratikte yaygın benimsenmesini kısıtlamıştır.