Machine Unlearning (Makine Unutturma)

Machine Unlearning, bir yapay zeka modelinin belirli eğitim verilerini yeniden eğitime gerek kalmadan seçici biçimde unutmasını sağlayan gizlilik tekniğidir.

Machine Unlearning, bir yapay zeka modelinin belirli eğitim verilerini, tüm modeli sıfırdan eğitmek zorunda kalmaksızın 'unutmasını' sağlayan yöntemler bütünüdür. Kavram, GDPR'nin 17. Maddesi olarak bilinen 'Silinme Hakkı' (Right to Erasure) ile doğrudan örtüşmektedir: bir kullanıcı verilerinin silinmesini talep ettiğinde, bu verinin model parametrelerine ne ölçüde işlendiği ve nasıl çıkarılacağı kritik bir uyum sorununa dönüşmektedir. Geleneksel yaklaşımda tek çözüm modeli baştan eğitmektir. GPT-4 veya Gemini gibi büyük dil modellerini sıfırdan eğitmek haftalar ve milyonlarca dolar gerektirdiğinden bu yol pratikte imkânsızdır. Machine Unlearning bu boşluğu kapatmaya çalışır. Teknik olarak iki ana yaklaşım mevcuttur: Exact Unlearning (Kesin Unutturma) ve Approximate Unlearning (Yaklaşık Unutturma). Exact Unlearning'in en tanınan yöntemi SISA Training'dir (Sharded, Isolated, Sliced, Aggregated). Bu teknikte eğitim verisi bağımsız parçalara bölünür; her parçanın kendi alt modeli olduğundan yalnızca ilgili parça yeniden eğitilir ve istenen veri kesin biçimde dışarıda bırakılabilir. Approximate Unlearning ise hedeflenen parametreleri gradyan güncellemeleriyle değiştirerek daha hızlı bir çözüm sunar; ancak verinin gerçekten unutulup unutulmadığının doğrulanması güçtür. 2024 yılında İtalyan Veri Koruma Kurumu, GDPR ihlalleri gerekçesiyle OpenAI'a 15 milyon Euro para cezası keserken Avrupa Veri Koruma Kurulu (EDPB) 2025'te silinme hakkına odaklanan Koordineli Uygulama Çerçevesi'ni başlattı. Bu düzenleyici baskılar Machine Unlearning'i yalnızca akademik bir araştırma konusu olmaktan çıkarıp kurumsal uyum için zorunlu bir araç hâline getirdi. 2025 yılında UC Riverside araştırmacıları, orijinal eğitim verisine gerek duymadan çalışan 'kaynak serbest unutturma' (source-free unlearning) yöntemini geliştirdi. Bu yaklaşım özellikle büyük ölçekli modeller için umut vericidir. Bununla birlikte, büyük dil modellerinde bilginin milyarlarca parametreye dağıtılmış biçimde depolanması nedeniyle tam ve doğrulanabilir unutturma sağlamak hâlâ açık bir araştırma problemi olmayı sürdürmektedir.

Machine Unlearning Neden Gerekli?

Bir makine öğrenmesi modeli eğitim verisini statik kayıtlar hâlinde saklamaz; milyarlarca parametreye dağıtılmış istatistiksel örüntüler olarak kodlar. Bu nedenle 'şu kullanıcının verisini sil' komutu, bir veritabanındaki satırı silmek kadar basit değildir. GDPR'nin 17. Maddesi olan Silinme Hakkı, kullanıcıların kişisel verilerinin işlenmesinin durdurulmasını ve verilerinin sistemden çıkarılmasını talep etmesine olanak tanır. Bu hak, modeli eğitmek için kullanılan veriyi de kapsar. Dolayısıyla veri işleyiciler, talep üzerine bir kullanıcının eğitim verisi katkısını geçersiz kılabilecek teknik mekanizmalara sahip olmak zorundadır. Sıfırdan yeniden eğitim bu gereksinimi karşılamanın teorik yoludur; ancak GPT ölçeğindeki modeller için bu işlem onlarca milyon dolar ve haftalarca süre gerektirir. Machine Unlearning, modelin genel performansını koruyarak hedeflenen verinin etkisini seçici biçimde geri almayı amaçlar.

Temel Yaklaşımlar

  • check_circle Exact Unlearning — SISA Training: Eğitim verisi bağımsız parçalara (shard) bölünür; her shard kendi alt modelini eğitir. Silme talebi geldiğinde yalnızca ilgili shard yeniden eğitilir. Sonuçlar birleştirildiğinde model, o veriyi hiç görmemiş gibi davranır. Matematiksel kesinlik sağlar; ölçeklenmesi zordur.
  • check_circle Approximate Unlearning — Gradyan Tabanlı: Hedef veriyle ilgili gradyanlar hesaplanır ve parametreler bu gradyanların tersine güncellenir ('gradient ascent'). Modelin bu veriye karşı 'amnesiac' hâle getirilmesi hedeflenir. Çok daha hızlı ve ölçeklenebilir; ancak gerçek unutmanın matematiksel kanıtı yoktur ve doğrulama gerektirir.
  • check_circle Source-Free Unlearning (2025): UC Riverside'ın 2025'te önerdiği bu yöntem, orijinal eğitim verisine erişim gerektirmez. Sertifikalı unutturma sağlar; özellikle eğitim verisinin artık mevcut olmadığı veya gizliliği korunması gereken senaryolarda kritik önem taşır.

Uygulama Alanları

  • check_circle GDPR Silinme Hakkı Talepleri: AB vatandaşlarının kişisel verilerinin model eğitiminden çıkarılması taleplerine teknik yanıt. Özellikle Avrupa pazarındaki LLM sağlayıcıları için zorunlu uyum mekanizması.
  • check_circle Zararlı veya Önyargılı İçerik Kaldırma: Model dağıtım sonrasında zararlı çıktı ürettiği tespit edilen eğitim verisinin parametrelerden temizlenmesi. Tam yeniden eğitim yerine hedefli düzeltme imkânı sunar.
  • check_circle Telif Hakkı İhlalleri: Telif hakkıyla korunan içeriklerle eğitilen modellerde, hukuki itirazlar üzerine ilgili içeriğin etkisinin giderilmesi. ABD ve AB'de açılan AI telif davaları bu senaryoyu güncel tutmaktadır.
  • check_circle Güvenlik Açığı Giderme: Model eğitim aşamasında enjekte edilen backdoor (arka kapı) veya zehirlenmiş (poisoned) verilerin sonradan tespit edilip parametrelerden çıkarılması.

Zorluklar ve Açık Araştırma Sorunları

Machine Unlearning'in en temel zorluğu doğrulamadır: Bir modelin belirli veriyi gerçekten unuttuğunu nasıl kanıtlarsınız? 'Membership inference attack' gibi tekniklerle modelin hâlâ o veriye dair bilgi taşıyıp taşımadığı test edilebilir; ancak bu testlerin kapsamlılığı tartışmalıdır. Büyük dil modellerinde bilgi katmanlar arası karmaşık biçimde iç içe geçtiğinden tek bir kullanıcının verisini izole etmek neredeyse imkânsızdır. Approximate unlearning yöntemleri hız sağlarken doğrulama güçlüğü yaratmaktadır. Aralık 2024'te yayımlanan bir MIT çalışması, popüler approximate unlearning tekniklerinin aslında veriyi 'gizlediğini' ancak tamamen silmediğini ortaya koymuştur. Bu bulgu, düzenleyici uyum açısından hangi tekniğin 'yeterli' sayılacağını belirsiz bırakmaktadır. Alan, hukuki çerçevelerle teknik gerçekliği uyumlu hâle getirmeye çalışırken gelişmeye devam etmektedir. 2025 ve sonrasında EDPB'nin somut rehber kararları beklenmektedir.

Sıkça Sorulan Sorular

  • check_circle Machine Unlearning ile modeli silip yeniden eğitmek arasındaki fark nedir?: Tam yeniden eğitim matematiksel olarak kesin sonuç verir; ancak büyük modeller için haftalarca sürer ve milyonlarca dolar maliyete yol açar. Machine Unlearning, modelin büyük bölümünü koruyarak yalnızca hedeflenen veri segmentini geçersiz kılmayı amaçlar. SISA Training gibi exact yöntemler yeniden eğitime yakın kesinlik sunarken approximate yöntemler hızı ön plana çıkarır.
  • check_circle GDPR Machine Unlearning'i açıkça zorunlu kılıyor mu?: GDPR doğrudan 'Machine Unlearning kullanın' demez; ancak Madde 17 kapsamındaki silinme hakkı, kişisel verinin eğitim setinden çıkarılmasını garanti etmeyi fiilen zorunlu kılar. EDPB'nin 2025 uygulama çerçevesi bu zorunluluğu pekiştirmiştir. Buna uymayan şirketler, İtalya DPA'nın OpenAI'a kestiği gibi yüksek cezalarla karşılaşabilir.
  • check_circle ChatGPT gibi modeller Machine Unlearning uyguluyor mu?: Büyük şirketler bu alanda aktif araştırma yürütse de kamuya açık teknik detaylar kısıtlıdır. OpenAI, Microsoft ve Google'ın yayımladığı çalışmalar approximate unlearning üzerinde yoğunlaştığını göstermektedir. Tam ve doğrulanabilir unlearning, LLM ölçeğinde hâlâ açık bir teknik sorun olmayı sürdürmektedir.
  • check_circle Machine Unlearning modelin performansını etkiler mi?: Dikkatli uygulandığında minimum etki beklenir. Ancak özellikle approximate yöntemlerde, hedeflenen veriyle ilişkili diğer kavramların da etkilenmesi riski (catastrophic forgetting benzeri bir yan etki) mevcuttur. SISA Training bu riski en aza indirir çünkü yalnızca ilgili shard yeniden eğitilir.