Sürekli Öğrenme Nedir? Felaket Unutma ve Continual Learning

list_altİçindekilerexpand_more

01Felaket unutma: plastisitenin ve kararlılığın çekişmesi
02Continual learning nedir?
03Temel yaklaşımlar
04Replay yöntemleri
05Regularization yöntemleri
06Yapısal yöntemler ve parametre izolasyonu
07LoRA ile modüler continual learning
08LLM’lerde continual learning: farklı bir ölçek
09Gerçek dünya uygulamaları
10Araçlar ve kütüphaneler
11Fine-tuning, RAG ve continual learning: ne zaman hangisi?
12Sonraki adımlar

Sürekli öğrenme ve felaket unutma: sinir ağlarında katmanlı bilgi koruması

Editorial tech-magazine cover illustration about continual learning and catastrophic forgetting in neural networks, a layered neural network continuously absorbing new data streams while glowing memory rings preserve older knowledge layers, branching synaptic pathways and flowing data pulses merging into stable preserved knowledge nodes, abstract artificial-intelligence motifs (glowing neural networks, flowing data, subtle circuitry), sophisticated modern concept art, clean balanced composition, soft cinematic studio lighting, rich depth of field, premium color grading in deep navy blues with cyan and magenta accents, highly detailed, polished editorial 8k. No text, no words, no letters, no captions, no logos, no watermark, no UI.

Bir hastanede tıbbi görüntü analizi yapan yapay zeka modeli geliştirdiniz. Pnömoniyi, kemik kırıklarını ve birçok tümör türünü yüksek doğrulukla sınıflandırıyor. Kliniklerde yeni bir hastalık veri seti oluştu ve modeli güncellemeniz gerekiyor. Fine-tuning yaptınız, yeni verilerde başarı tatmin edici görünüyor. Eski test setini çalıştırdığınızda pnömoni tespitinin ciddi ölçüde gerilediğini fark ediyorsunuz.

Bu sorun 1989’a, McCloskey ve Cohen’in sinir ağlarındaki “catastrophic interference” çalışmasına dayanıyor: felaket unutma (catastrophic forgetting). 2026 ortasında enterprise AI ekiplerinin gündeminde her zamankinden daha üst sıralarda yer alıyor; modelleri canlı tutmanın ve değişen verilere adapte etmenin maliyeti arttıkça bu konu daha çok konuşuluyor.

Bu yazıda felaket unutmanın kökenini, continual learning’in bunu nasıl ele aldığını ve hangi pratik yaklaşımın hangi durumda işe yaradığını adım adım inceliyoruz.

Felaket unutma: plastisitenin ve kararlılığın çekişmesi

Felaket unutma, bir modeli yeni görev ya da veri üzerinde eğittiğinizde önceki görevlerde kazanılan ağırlıkların üzerine yazılmasıyla ortaya çıkar. Sorunun kökü, gradyan iniş tabanlı optimizasyonun tek bir şeyi önemsemesinde yatıyor: o andaki veri dağılımındaki kaybı minimize etmek.

Stochastic gradyan iniş, parametreleri güncel batch’in gradyanına göre günceller. Yeni bir veri seti geldiğinde aynı süreç yeniden devreye girer; ağırlıklar yeni dağılıma uyacak biçimde değişir. Eski görev için kritik olan parametreler, yeni görevin gradyanlarıyla çakıştığında baskılanır ya da tamamen yön değiştirir. Optimizasyon algoritması bunu bir hata olarak görmez; hedefi zaten şimdiki batch’teki kaybı düşürmek.

Bu gerilime plasticity-stability dilemması deniyor. Plasticity modelin yeni bilgiyi öğrenme kapasitesi, stability ise önceki bilgiyi koruma yeteneği. İkisini aynı anda üst düzeyde tutmak derin öğrenmede temel zorluklardan biri; model büyüdükçe bu denge daha az affedecidir.

Beyin bu gerilimi hippocampus-korteks arasındaki işbirliğiyle yönetiyor: hippocampus kısa vadeli deneyimleri hızlıca kodlar, uyku sırasında bu deneyimler kortekse yavaşça tekrar oynatılarak uzun vadeli belleğe entegre edilir. Makine öğrenmesindeki replay yöntemleri bu mekanizmayı kabaca taklit eder; eski örnekleri tampon bellekte tutup yeni eğitimle harmanlayarak geçmiş bilginin kaybolmasını frenlemeye çalışır.

Felaket unutma en çok şu koşullarda belirginleşir: görevler arasındaki veri dağılımı önemli ölçüde farklılaştığında; yeni eğitim çok uzun sürdüğünde; eski görev verisi eğitim sırasında tamamen erişilemez kaldığında. Bu üç koşul aynı anda geçerliyse forgetting oranı dramatik biçimde artar.

Öğrenme oranı yüksek tutulduğunda veya batch boyutu küçük seçildiğinde güncellemeler agresifleşir; kritik ağırlıkların kısa sürede üzerine yazılma riski artar. Hiperparametre ayarlarken yalnızca yeni görev doğruluğuna bakmak yetmez, eski görev retention oranını da izlemek gerekir.

Continual learning nedir?

Continual learning (lifelong learning ya da incremental learning olarak da anılır), bir modelin art arda gelen görevlerden ya da veri akışından öğrenirken geçmiş bilgisini korumasını araştıran alandır.

Transfer learning ile temel farkı şu: transfer learning sabit iki aşamalı bir süreç tanımlar (ön-eğitim, ardından ince ayar), continual learning ise bu döngünün defalarca tekrarlanacağını varsayar. Model sabit bir veri tabanından değil, sürekli akan bir görev dizisinden öğrenmek zorundadır ve her adımda yeni bilgiyi kazanırken eski bilgiyi koruma hedefi devrede kalır.

Literatür üç temel senaryo tanımlamış durumda. Her senaryo, model ile görev bilgisi arasındaki ilişkiyi farklı biçimde kurgular.

Task-Incremental Learning’de model her seferinde hangi görevi yaptığını bilerek çalışır. Test sırasında görev kimliği verilir. En kolay senaryo; parametre izolasyonu burada doğrudan işe yarar ve belirgin forgetting olmadan güçlü performans elde etmek nispeten kolaydır.

Class-Incremental Learning her adımda yeni sınıflar ekler, ama test sırasında hangi adımdan geldiği bilinmez. Model tüm sınıflar arasından doğru yanıtı üretmek zorundadır; eski ve yeni sınıflar arasındaki karar sınırı sürekli yeniden çizildiğinden bu, üç senaryo içinde en zorlu olanı. Gerçek dünya sınıflandırma sorunlarının büyük kısmı bu senaryoya daha yakın.

Domain-Incremental Learning’de görev tipi aynı kalır ama veri dağılımı değişir. Her ay farklı bir hastane verisinden gelen görüntülerle çalışan tıbbi teşhis modeli buna iyi bir örnek; sınıf başlıkları sabit kalıyor, dağılım kayıyor.

Temel yaklaşımlar

Replay yöntemleri

En sezgisel çözüm, eski veriden küçük bir örneklem tutup yeni eğitim sırasında tekrar kullanmak.

Experience Replay her görevden bir tampon bellekte örnekler saklar. Yeni görev eğitilirken bu örnekler mini-batch’lere karıştırılır, böylece model hem yeniye hem eskiye bakar. Buffer boyutu ve örnekleme stratejisi dikkatli ayarlanmazsa performans dengesiz kalabilir; sınıf başına eşit örnek dağılımı tutmak çoğunlukla rastgele seçime göre daha tutarlı sonuçlar verir.

Generative Replay eski veriyi bellekte tutmak yerine bir üretici modelle sentetik örnekler üretir. Hasta verisi veya finansal kayıt gibi gizlilik gerektiren senaryolarda kullanışlı; gerçek örnekler yerine onları taklit eden veriler kullanılır. Dezavantajı, üretici modeli yeterince kaliteli tutmanın ayrı bir mühendislik yükü getirmesi. Üretici model ne kadar iyi olursa sentetik örnekler o kadar temsili olur, ama bu üretici de bozulabilir ve kalite kontrolünü zorlaştırır.

GDumb (Greedy Sampler and Distiller) basit bir buffer yönetimi ve knowledge distillation kombinasyonuyla şaşırtıcı ölçüde rekabetçi sonuçlar üretir. Karmaşık yöntemlerle kıyaslamada sık başvurulan bir temel referans noktası; özellikle implementasyon basitliği ön plana çıktığında değerli bir seçenek.

Replay buffer boyutu için pratik kural: görev başına 200 ile 2000 örnek arasında tutmak makul bir başlangıç. Bunun altına inmek eski görev performansını belirgin biçimde bozar; bunun çok üstüne çıkmak bellek tasarrufunu ortadan kaldırır. Örneklerin nasıl seçildiği de önemli; en zor örnekleri tutmak ile en çeşitli örnekleri seçmek arasındaki tercihin göreve göre farklı davrandığı görülüyor.

Regularization yöntemleri

Regularization yaklaşımları hafıza tutmak yerine ağırlık güncellemelerini kısıtlar; kritik parametrelerin büyük değişimlerinin önüne geçer.

EWC (Elastic Weight Consolidation) 2017’de Kirkpatrick ve ekibinin yayımladığı çalışmada tanıtıldı. Fisher bilgi matrisini kullanarak her parametrenin eski görev için ne kadar önemli olduğunu hesaplar ve bu parametrelere yeni eğitim sırasında bir ceza terimi ekler. Eski görev için kritik ağırlıklara elastik bir yay uygulanmış gibi düşünebilirsiniz; bu ağırlıklar yeni gradyanların baskısıyla uzaklaşmaya çalıştıkça geri çekiliyor.

EWC’nin pratik bir kısıtı var. 7 milyar parametreli bir modelde tam Fisher matrisini tutmak gigabaytlarca ek bellek gerektirir. Bu yüzden uygulamalarda köşegen Fisher tahmini (diagonal approximation) tercih edilir; her parametre için yalnızca kendi varyansı saklanır, matrisin tamamı yerine bu tek değer kullanılır. Tahmin biraz daha gürültülü olsa da bellek maliyeti dramatik biçimde düşer. Görev sayısı arttıkça her görev için ayrı Fisher hesabı yapmak gerekiyor; bu durum EWC’yi çok görevli uzun dizilerde ölçeklenmesi güç bir seçenek haline getiriyor.

SI (Synaptic Intelligence) EWC’ye benzer ama parametrelerin önemini eğitim sürecinde çevrimiçi takip eder, ayrı bir Fisher hesabı gerektirmez. Hesaplama yükü daha düşük, tahminler biraz daha gürültülü. Verimlilik kısıtı olan ortamlarda kullanışlı bir ara seçenek.

Learning without Forgetting (LwF) eski veri ya da istatistik tutmak yerine bilgi damıtma prensibini kullanır. Yeni veriler eski modelden geçirilir, çıktılar yumuşak etiket olarak kaydedilir ve yeni eğitimde kısıt görevi görür. Eski veriye hiç erişim gerektirmez; eski model bir öğretmen olarak yeni modelin eğitimi sırasında rehberlik eder. Gizlilik kısıtlarının veri erişimini engellediği durumlarda bu avantaj belirleyici hale gelebilir.

Yapısal yöntemler ve parametre izolasyonu

Bu yaklaşımlar her görev için ağın ayrı bir bölümünü ayırır; parametre çakışması yapısal olarak engellenir.

Progressive Neural Networks her yeni görev için ağa taze bir “sütun” ekler, eski sütunlara yalnızca lateral bağlantılarla ulaşır. Eski parametreler tamamen dondurulur. Forgetting açısından en güçlü yöntemlerden biri; ama görev sayısıyla birlikte bellek kullanımı doğrusal biçimde büyür.

PackNet yapıyı sabit tutarken her görev için ağırlıkların bir alt kümesini ayırır, kalan kapasiteye bir sonraki görev için alan açar. Parametre bütçesini daha verimli kullanır ve model boyutu kontrol altında kalır. Kapasite dolduğunda yeni görevler için yer açmak üst ağırlıkları budamayı gerektiriyor; bu süreç dikkatli yönetilmediğinde erken kapasiteye ulaşma riski taşıyor.

LoRA ile modüler continual learning

LoRA ve PEFT yöntemleri continual learning için giderek daha fazla ilgi görüyor. Temel fikir: her görev için ayrı LoRA adaptörleri eğitmek, ana model ağırlıklarına hiç dokunmamak.

Görev başına ayrı adaptör açıldığında felaket unutma büyük ölçüde bastırılır; eski görev adaptörleri tamamen dondurulabilir ve yeni görev eğitimi onları etkilemez. Test aşamasında doğru adaptörü seçmek ya da birleştirmek gerekir. Görev kimliği biliniyorsa basit yönlendirme, bilinmiyorsa gating mekanizmaları ya da ensemble stratejileri kullanılır.

Adaptör tabanlı yaklaşımın ek bir avantajı var: görev başına parametre sayısı toplam model parametrelerine kıyasla çok küçük kaldığından uzun görev dizilerinde bile toplam bellek bütçesi yönetilebilir düzeyde tutuluyor. Model kayıt defterine birden fazla adaptör yüklemek ve görev geçişinde bunlar arasında geçiş yapmak PEFT ile birkaç satır koda indirgeniyor.

LLM’lerde continual learning: farklı bir ölçek

Büyük dil modelleri felaket unutmaya özellikle duyarlı. 7 milyar veya 70 milyar parametreli modellerde tek bir görev için eğitilmiş ağırlıkların ne kadarının değiştiği, doğrudan genel yeteneklerin ne ölçüde zarar göreceğini belirliyor.

LLM bağlamında iki strateji öne çıkıyor.

Continual Pre-Training, modeli yeni veri üzerinde dil modellemesi hedefiyle ek eğitimden geçirmek demek. Yeni veri oranı karışımda çok yüksek tutulursa orijinal yetkinlikler zarar görebilir; eski ve yeni veri oranını dengeli tutmak kritik. Bazı çalışmalar yeni veri oranının yüzde 10-30 arasında kalmasının genel yeteneklerde belirgin gerilemeyi önlediğini gösteriyor, ama bu oran modele ve alan farkının büyüklüğüne göre değişiyor.

Continual Fine-Tuning, görev bazlı ince ayarların art arda uygulanması. RLHF ile hizalanmış bir modeli yeni bir alan için tekrar fine-tune ettiğinizde hem domain adaptasyonu hem de hizalanma kalitesinin korunması gerekiyor; bu iki hedef sık sık çakışır ve dikkatli bir veri miksajı zorunlu hale gelir.

Büyük ölçekte Fisher matrisi gibi istatistiklerin hesaplanması çok daha fazla GPU belleği ve zaman alır. Bu yüzden LLM continual learning projelerinde replay tabanlı veya adaptör tabanlı yaklaşımlar regularization yöntemlerine çoğunlukla tercih edilir. Mevcut altyapı kısıtlarıyla çalışılıyorsa LoRA tabanlı görev izolasyonu en hızlı başlangıç noktasını sunuyor.

Gerçek dünya uygulamaları

Endüstriyel robotlarda sürekli öğrenme ihtiyacı somut: robot kol önce tutuş görevini, ardından yerleştirme görevini öğreniyor. İkincisini öğrenirken birincisindeki hassasiyeti bozmamak üretim hattı için kritik. Yeniden eğitim maliyetleri yüksek olduğundan continual learning motivasyonunun ilk sıralarında yer alıyor.

Hukuk veya finans alanına odaklı dil modelleri düzenleyici çerçeveler değiştikçe güncellenmelidir. Yalnızca yeni metinlerde ince ayar yapmak eski terminolojiyi ve örüntüleri bozabilir; continual learning burada hem yeni hem eski bilgiyi modelde aktif tutar.

Otonom araçlarda yeni trafik işaretleri veya yol koşulları tanımlanabilmeli, model güncellenebilmeli; temel sürüş refleksleri hiçbir koşulda zarar görmemeli. Güvenlik kritik sistemler açısından bu durum continual learning’i teknik bir tercih olmaktan çıkarıp zorunlu bir mühendislik gereksinimine dönüştürüyor.

Öneri sistemlerinde kullanıcı tercihleri zamanla kayar. Periyodik güncelleme kaçınılmaz, ama eski kullanıcı verisi her zaman yeniden kullanılabilir olmayabilir. Replay buffer boyutunu görev başına 200-2000 örnek arasında tutmak, eski kullanıcı gruplarına yönelik performansı kabul edilebilir düzeyde korumanın pratik bir yolu olarak öne çıkıyor. Rastgele seçmek yerine her kullanıcı grubundan eşit örnek almak çoğu durumda daha tutarlı sonuç veriyor.

NLP alan güncellemelerinde durum farklı bir boyut kazanıyor. Tıbbi ya da hukuki bir dil modelinin terminolojisi, sektördeki yasal düzenlemeler veya klinik protokoller güncellendiğinde değişmek zorunda. Bu güncellemeleri her seferinde sıfırdan eğitimle yapmak hem yavaş hem maliyetli; continual learning bu çevrimi önemli ölçüde kısaltabiliyor.

Araçlar ve kütüphaneler

Avalanche, PyTorch tabanlı en kapsamlı continual learning çerçevesi. EWC, GEM, iCARL ve onlarca strateji hazır geliyor; benchmark veri setleri entegre, öğrenme eğrilerini izlemeye yönelik metrik API’leri mevcut.

from avalanche.training.strategies import EWC
from avalanche.benchmarks.classic import SplitMNIST

benchmark = SplitMNIST(n_experiences=5)
strategy = EWC(
    model, optimizer, criterion,
    ewc_lambda=0.4,
    train_mb_size=32,
    train_epochs=1
)
for experience in benchmark.train_stream:
    strategy.train(experience)

Continuum, PyTorch ile entegre çalışan yardımcı kütüphane. Benchmark veri setlerini continual learning senaryolarına dönüştüren hazır data loader’lar ve senaryo tanımları içeriyor. SplitCIFAR100 veya CORe50 gibi standart benchmark’lara hızla bağlanmak isteyenler için iyi bir giriş noktası.

Sequoia hem denetimli hem pekiştirmeli öğrenme senaryolarını kapsıyor; araştırma odaklı projelerde esneklik ön planda olduğunda tercih edilen seçenek.

HuggingFace PEFT, LoRA tabanlı continual fine-tuning için en pratik başlangıç noktası. Görev başına adaptör yönetimi basit bir API ile destekleniyor; mevcut transformer tabanlı altyapıyla doğrudan entegre ediliyor.

Fine-tuning, RAG ve continual learning: ne zaman hangisi?

Fine-tuning ve RAG arasındaki tercih zaten pratik bir karar noktası oluşturuyor. Continual learning bu tabloya üçüncü bir boyut ekliyor.

Kriter	Fine-Tuning (tekil)	RAG	Continual Learning
Veri güncelleme sıklığı	Nadiren	Sürekli	Periyodik
Görev sayısı	1	Değişken	2+
Eski bilgiyi koruma	Hayır	Evet (retrieval)	Hedef
Altyapı karmaşıklığı	Düşük	Orta	Yüksek
Parametre büyümesi	Sabit	Sabit	Olabilir

RAG, dış bilgiyi retrieval yoluyla enjekte ettiğinden felaket unutmayı model parametreleri düzeyinde yaşamaz. Bilgi senkronizasyonu vektör veritabanında yönetilir ve yeni içerik eklendikçe model yeniden eğitilmeden güncel kalır. Bununla birlikte RAG her zaman erişilebilir bir veritabanı gerektiriyor; parametre içi bilgiyi gerçek anlamda pekiştirmek istediğinizde yetersiz kalabiliyor.

Birden fazla görev seti periyodik aralıklarla geliyorsa ve eski görev performansının korunması zorunluysa continual learning, her seferinde tüm veriyi sıfırdan yeniden eğitme maliyetine karşı güçlü bir alternatif. Bu kararı doğru vermek hem hesaplama bütçesini hem de mimari yükü önemli ölçüde etkiler.

Üç yöntemin birlikte kullanımı da mümkün. Parametrelere kodlanan temel yetenekler continual learning ile korunurken sık değişen alan bilgisi RAG ile yönetilirse, iki yaklaşımın güçlü yanları bir arada kullanılabiliyor.

Sonraki adımlar

Kirkpatrick ve ekibinin 2017 tarihli “Overcoming catastrophic forgetting in neural networks” makalesi başlangıç için sağlam; EWC’nin hem teorik çerçevesi hem de deneysel kıyaslamaları orada. McCloskey ve Cohen’in 1989 çalışması catastrophic interference kavramını sinir ağlarında ilk ortaya atan referans; konunun tarihsel bağlamını anlamak için değerli.

Pratik denemeler için Avalanche’ın başlangıç notebook’ları ve SplitMNIST ya da SplitCIFAR benchmark’ları iyi bir giriş noktası. EWC ve LwF task-incremental senaryolarda regularization kategorisinde güçlü temel referans; class-incremental senaryolarda replay yöntemleri çoğu durumda daha iyi sonuç veriyor.

LLM bağlamında HuggingFace PEFT’in LoRA adaptör yönetimi, mevcut altyapıyla en hızlı entegrasyonu sunuyor. Her yeni fine-tuning döngüsünde adaptör tabanlı yaklaşımı değerlendirmek, felaket unutma riskini düşük maliyetle yönetmenin makul bir başlangıcı. Daha ileri araştırma için L2P (Learning to Prompt) ve DualPrompt gibi vision-language modellerinde continual learning için önerilen yaklaşımları da incelemeye değer; bu yöntemler parametre ağırlıklarına dokunmadan prompt optimizasyonuyla görev bilgisini ayrıştırıyor.

Alana genel bir bakış için van de Ven ve Tolias’ın kapsamlı survey çalışması (2022) hangi yöntemin hangi senaryoda öne çıktığı konusunda sistematik bir çerçeve çiziyor.