tag ResNet

Bu sayfada ResNet etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Residual Network (ResNet) (Artık Ağ (ResNet))

Residual Network (ResNet), 2015 yılında Kaiming He, Xiangyu Zhang, Shaoqing Ren ve Jian Sun tarafından Microsoft Research'te geliştirilen ve derin öğrenme tarihinin en etkili mimarilerinden biri olan yapay sinir ağı tasarımıdır. 'Deep Residual Learning for Image Recognition' başlıklı makaleyle sunulan bu mimari, aynı yıl düzenlenen ImageNet Büyük Ölçekli Görsel Tanıma Yarışması'nı (ILSVRC 2015) yüzde 3.57 hata oranıyla kazanmış; bu oran insan performansının da önüne geçmiştir. ResNet'in çözdüğü temel sorun, derin sinir ağlarındaki gradyan kaybı (vanishing gradient) problemidir. Geri yayılım (backpropagation) algoritması sırasında hata sinyalleri katmanlar boyunca geriye doğru ilerlerken giderek küçülür. Bu nedenle 20-30 katmanı aşan ağlarda en alt katmanlar yeterince güncellenmez ve model eğitimi durağanlaşır ya da bozunur. 2015 öncesinde çok derin ağlar pratik olarak eğitilemiyordu. ResNet'in çözümü, atlama bağlantıları (skip connections) ya da artık bağlantılar (residual connections) adı verilen yapılardır. Klasik bir sinir ağı katmanı H(x) çıktısını öğrenmeye çalışırken ResNet blokları yalnızca artığı — yani F(x) = H(x) − x — öğrenir. Gerçek çıktı ise F(x) + x formülüyle hesaplanır. Bu kısa yol bağlantısı, gradyanın derin katmanlara doğrudan akmasını sağlar ve yüzlerce katmandan oluşan ağların başarıyla eğitilmesini mümkün kılar. Mimarinin varyantları katman sayısına göre isimlendirilir: ResNet-18, ResNet-34, ResNet-50, ResNet-101 ve ResNet-152. ResNet-50 ve daha derin modeller, hesaplama verimliliğini artırmak için bottleneck bloklar kullanır; bu bloklar 1×1 konvolüsyonlarla özellik haritalarının boyutunu önce sıkıştırır, ardından yeniden genişletir. ResNet, modern bilgisayarla görme ekosisteminin omurgası hâline gelmiştir. Nesne tespiti (Faster R-CNN, YOLO), anlamsal bölütleme, tıbbi görüntü analizi ve uydu görüntüsü işleme gibi alanlarda yaygın biçimde kullanılmaktadır. Transfer öğrenme bağlamında, ImageNet üzerinde önceden eğitilmiş ResNet ağırlıkları farklı görevler için başlangıç noktası olarak paylaşılmaktadır. Atlama bağlantısı fikri daha sonra Transformer mimarisi ve modern büyük dil modellerine de taşınmış; bu modellerin her katmanında benzer artık bağlantılar kullandığı görülmüştür.

arrow_forward trending_down

Vanishing Gradient Problem (Kaybolan Gradyan Problemi)

Kaybolan Gradyan Problemi (İngilizce: Vanishing Gradient Problem), derin sinir ağlarını geri yayılım (backpropagation) algoritmasıyla eğitirken ortaya çıkan temel bir optimizasyon sorunudur. Ağdaki gradyanlar, geri yayılım sırasında çıkış katmanından girişe doğru ilerlerken her katmanda küçük değerlerle çarpılır. Sonuç olarak gradyanlar üstel biçimde küçülür ve ağın ilk katmanlarına ulaştığında pratikte sıfıra yaklaşır. Bu durum ilk katmanların güncellenmemesine yol açar; ağın bu erken katmanları neredeyse öğrenmez hale gelir. Sorunun ana nedeni, sigmoid ve tanh gibi aktivasyon fonksiyonlarının türevlerinin oldukça dar bir aralıkta (0 ile 0.25 arasında) kalmasıdır. Geri yayılım zincirinde her katman için bu küçük türev değerleriyle çarpma işlemi yapıldığından, 10 katmanlı bir ağda gradyan kolaylıkla (0.25)^10 ≈ 0.000001 gibi ihmal edilebilir bir değere düşebilir. Tarihsel açıdan bu problem, 1991 yılında Sepp Hochreiter'ın diplomasında kapsamlı biçimde analiz edildi. Bu analiz, özellikle RNN mimarilerinde uzun vadeli bağımlılıkların öğrenilememesi sorununu da açıklamaktaydı; bu nedenle Hochreiter ve Schmidhuber 1997'de LSTM mimarisini geliştirdi. Modern derin öğrenmede bu problemi hafifletmek için çeşitli yöntemler kullanılmaktadır. ReLU aktivasyon fonksiyonu, pozitif bölgede türevi 1 olduğundan gradyan akışını korur. Batch Normalization, katman çıktılarını normalleştirerek gradyanları dengeli tutar. ResNet'in temelini oluşturan Skip Connection (artık bağlantı), gradyanın katmanları atlayarak doğrudan iletilmesini sağlar. Xavier ve He başlatması gibi ağırlık başlatma stratejileri başlangıç gradyan dağılımını stabilize eder. LSTM ve GRU, özel geçit mekanizmalarıyla uzun vadeli gradyan akışını korur. Kaybolan Gradyan Problemi, Patlayan Gradyan Problemi (Exploding Gradient Problem) ile zıt bir çift oluşturur: birinde gradyanlar sıfıra çökerken diğerinde kontrolsüzce büyür. İkisi de derin ağ eğitiminin temel dinamiklerini etkiler ve modern mimari tasarım kararlarını doğrudan şekillendirir.

arrow_forward