Vanishing Gradient Problem (Kaybolan Gradyan Problemi)
Kaybolan Gradyan Problemi (İngilizce: Vanishing Gradient Problem), derin sinir ağlarını geri yayılım (backpropagation) algoritmasıyla eğitirken ortaya çıkan temel bir optimizasyon sorunudur. Ağdaki gradyanlar, geri yayılım sırasında çıkış katmanından girişe doğru ilerlerken her katmanda küçük değerlerle çarpılır. Sonuç olarak gradyanlar üstel biçimde küçülür ve ağın ilk katmanlarına ulaştığında pratikte sıfıra yaklaşır. Bu durum ilk katmanların güncellenmemesine yol açar; ağın bu erken katmanları neredeyse öğrenmez hale gelir.
Sorunun ana nedeni, sigmoid ve tanh gibi aktivasyon fonksiyonlarının türevlerinin oldukça dar bir aralıkta (0 ile 0.25 arasında) kalmasıdır. Geri yayılım zincirinde her katman için bu küçük türev değerleriyle çarpma işlemi yapıldığından, 10 katmanlı bir ağda gradyan kolaylıkla (0.25)^10 ≈ 0.000001 gibi ihmal edilebilir bir değere düşebilir.
Tarihsel açıdan bu problem, 1991 yılında Sepp Hochreiter'ın diplomasında kapsamlı biçimde analiz edildi. Bu analiz, özellikle RNN mimarilerinde uzun vadeli bağımlılıkların öğrenilememesi sorununu da açıklamaktaydı; bu nedenle Hochreiter ve Schmidhuber 1997'de LSTM mimarisini geliştirdi.
Modern derin öğrenmede bu problemi hafifletmek için çeşitli yöntemler kullanılmaktadır. ReLU aktivasyon fonksiyonu, pozitif bölgede türevi 1 olduğundan gradyan akışını korur. Batch Normalization, katman çıktılarını normalleştirerek gradyanları dengeli tutar. ResNet'in temelini oluşturan Skip Connection (artık bağlantı), gradyanın katmanları atlayarak doğrudan iletilmesini sağlar. Xavier ve He başlatması gibi ağırlık başlatma stratejileri başlangıç gradyan dağılımını stabilize eder. LSTM ve GRU, özel geçit mekanizmalarıyla uzun vadeli gradyan akışını korur.
Kaybolan Gradyan Problemi, Patlayan Gradyan Problemi (Exploding Gradient Problem) ile zıt bir çift oluşturur: birinde gradyanlar sıfıra çökerken diğerinde kontrolsüzce büyür. İkisi de derin ağ eğitiminin temel dinamiklerini etkiler ve modern mimari tasarım kararlarını doğrudan şekillendirir.