LLM Unlearning Nedir? Modeli Veri Silmeye Zorlamak

list_altİçindekilerexpand_more

01LLM Unlearning Nedir?
02Neden Gerekli? Dört Senaryo
031. GDPR Madde 17: Silinme Hakkı
042. Telif Hakkı İhlalleri
053. Model Memorization
064. Zararlı Bilgiyi Kaldırma
07Temel Unlearning Teknikleri
08Gradient Ascent
09SISA Training
10Fine-tuning Tabanlı Yaklaşımlar
11Selective Synaptic Dampening
12LLM’lerde Unlearning’in Gerçek Zorlukları
13TOFU Benchmark: Ölçüyor muyuz, Gizliyoruz mu?
14Exact vs Approximate: Ne Zaman Hangisi?
15Gerçek Dünya Uygulamaları
162026’da Unlearning Nerede?

Bir kullanıcı, “Bu metinlerim modelinizin eğitim verisindeydi. Silin” dediğinde ne olur? Cevap çoğunlukla aynıdır: modeli tamamen yeniden eğitmek olmadan o veriyi “silmek” mümkün değildir. Bir büyük dil modelini eğittikten sonra içindeki bilgiyi cerrahi hassasiyetle çıkarmak, kitabı okuduktan sonra belli sayfaları kafanızdan silmeye benzer. Parametreler her şeyi birbirine örmüştür.

Bu durum GDPR’ın “silinme hakkı” maddesiyle çeliştiğinde ciddi bir hukuki ve teknik sorun doğar. Telif hakkı davalarında mahkemeler model davranışına bakışta daha titiz hale geldikçe, ve model hizalamasında güvenlik kaygıları yükseldikte, “modeli yeniden eğit” cevabı giderek daha az kabul edilebilir bir yanıt olmaya başlıyor.

Machine unlearning, bu problemi tersinden ele alan bir araştırma alanı: modelin belirli bir şeyi hiç öğrenmemiş gibi davranmasını sağlamak.

LLM Unlearning Nedir?

Machine unlearning genel olarak, bir ML modelinden belirli eğitim noktalarının etkisini kaldırma işlemi olarak tanımlanır. Klasik ML’de bu, kimi zaman makul bir maliyetle yapılabilir. Küçük modellerde veri silinir, model yeniden çalıştırılır.

LLM’lerde bu hesap tutmaz. GPT-4 sınıfı bir modeli sıfırdan eğitmek on milyonlarca dolara mal olur. Bir kullanıcının verisi kaldırılmak istendiğinde o maliyeti her seferinde tekrarlamak pratikte imkânsız. Dahası, modern mimariler bilgiyi tek bir parametre kümesinde değil, katmanlar arasına dağıtılmış biçimde depolar. Hedef bilgiyi izole etmek için netleştirilmiş bir harita yoktur.

Bu yüzden araştırma iki koldan ilerliyor. Exact unlearning, modeli hedef veri olmadan yeniden eğitmekle matematiksel olarak eşdeğer bir sonuç üretir. Küçük modellerde ve bazı özel mimarilerde uygulanabilir, ama LLM ölçeğinde bu yolun maliyeti kabul edilemez. Approximate unlearning ise tam eşdeğerliği bırakıp “yeterince iyi unutma” hedefler. Üretim ortamındaki büyük modeller için şu an tek pratik yol bu.

Neden Gerekli? Dört Senaryo

Avrupa kullanıcıları verilerinin silinmesini talep edebilir. Eğer o veri bir modelin eğitiminde kullandıysa, modelin o veriden öğrendikleri de silinmeli mi? Bu sorunun hukuki cevabı henüz tam netlik kazanmamış. Ama düzenleyiciler giderek daha katı bir tutum alıyor.

2. Telif Hakkı İhlalleri

2023-2024 yıllarında birçok yayıncı ve yazar yapay zeka şirketleri aleyhine dava açtı. İddia: kendi eserleri izinsiz eğitim verisi olarak kullanıldı. Model bu eserleri ezberlediyse, telif ihlalinin canlı bir kanıtı model ağırlıklarında yaşıyor demektir. Unlearning, bu ihlali silmenin teknik yolu olarak öneriliyor.

3. Model Memorization

LLM’ler eğitim verisini birebir ezberleyebilir. Aynı ön eki tekrarlayan sorgularla model, kişisel adresler, sosyal güvenlik numaraları, özel yazışmalar üretebilir. Bu veri mahremiyet ihlalidir. Sentetik veri üretimi bu sorunu kısmen önler, ama mevcut modellerin hazır sızıntı riski geriye doğru kapanması gerekir.

4. Zararlı Bilgiyi Kaldırma

Bir model kimyasal silah sentezi, biyolojik tehdit detayları veya çocuk istismarına yönelik içerikler üretebiliyorsa, o bilgiyi hedefli biçimde kaldırmak güvenlik açısından kritik. RLHF sonrası reddetme davranışı öğretmek bir yol, ama modelin o bilgiye gerçekten sahip olmaktan çıkarılması daha sağlam bir çözüm.

Temel Unlearning Teknikleri

Gradient Ascent

En temel yaklaşım. Normal eğitimde kayıp fonksiyonu minimize edilir. Gradient ascent’te hedef örnekler için kayıp maximize edilir: model, o örnekleri yanlış tahmin etmeye zorlanır.

Pratikte işe yaradığını gösteren deneyler var, ama tek başına güvenilir değil. İki temel sorun: birincisi, model hedef örnekleri yanlış tahmin etmek için rastgele çıktılar üretmeye başlayabilir ve bu genel yetkinliği bozar (catastrophic forgetting). İkincisi, modelin o bilgiyi gerçekten mi unuttuğunu yoksa sormayan soruya yanlış cevap vermek için mi adapte olduğunu ayırt etmek zor.

RLHF sürecinde kazanılan davranış kalıpları da gradient ascent ile hedeflenebilir, ancak bu daha da karmaşık bir optimizasyon problemine dönüşür.

SISA Training

Sharded, Isolated, Sliced, Aggregated. Bu yöntem, unlearning’i eğitim sürecinin tasarımına gömer.

Fikir: eğitim verisini önceden parçalara (shards) böl ve her parçayı izole bir alt modelde eğit. Nihai model bu alt modellerin bir toplamı. Bir veri noktasını silmek gerektiğinde sadece o noktanın bulunduğu parçayı yeniden eğitmek yeterli.

Büyük ölçek için pahalı, ama unlearning talebinin sık beklenen ortamlarda (örneğin kullanıcı verisini işleyen sistemler) çekici bir mimari seçeneği.

Fine-tuning Tabanlı Yaklaşımlar

Bunların en pratik olanı, modeli kalan veri üzerinde yeniden ince ayara tabi tutmak. Hedef: model “unutturulan” örnekler için artık bilgi üretemiyor, ama geri kalan her şeyi yapabilecek kadar genel yetkinliği koruyor.

Gradient Difference yöntemi burada öne çıkıyor. Hem hedef örneklerin kaybını artır (unuttur), hem de rastgele alınan genel örneklerin kaybını düşük tut (genel yetkinliği koru). İki hedefi dengeleyen birleşik kayıp fonksiyonu.

PEFT teknikleri (LoRA, QLoRA) bu süreci hesaplama açısından yönetilebilir kılıyor. Tam model ağırlıkları yerine düşük ranklı adaptör katmanları güncelleniyor. Aynı mantık DPO’da da görülür: tercih verisi üzerinden model davranışını şekillendirmek, ama burada amaç bilgi silmek.

Selective Synaptic Dampening

Daha matematiksel bir yol. Fisher bilgi matrisini kullanarak hangi parametrelerin hedef veriyi ne kadar “taşıdığını” tahmin et; bu parametrelerin ağırlığını seçici biçimde sönümle.

Knowledge distillation ile kavramsal bir bağı var: bilgiyi bir yerden başka bir yere taşımak yerine burada belirli bilgiyi kasıtlı olarak söndürmek amaçlanıyor. Fisher yaklaşımı teorik olarak temiz, ama tam Fisher matrisini hesaplamak büyük modellerde maliyetli.

LLM’lerde Unlearning’in Gerçek Zorlukları

Teknikler umut verici görünüyor. Ama pratikte işler beklenenden karmaşık.

Birincisi: bilgi nerede saklanıyor, bilinmiyor. Bir modelin Einstein hakkındaki bilgisi tek bir parametre kümesinde değil, katmanlar arasına dağılmış durumda. Bu dağılımın haritası yok. Bir katmana müdahale başka bir yerde beklenmedik yan etkiler üretir.

Bağlantılı bir sorun daha var: catastrophic forgetting. Model hedef örnekleri yanlış tahmin etmeye zorlandığında, optimizasyon bunu genelleme yoluyla yapar. Kötü giden durumlarda model, silinmesi istenenden çok daha geniş bir bilgi alanını yitirir.

Buna eklenen yapısal bir güçlük de var. Model bir olguyu eğitim verisinden mi öğrendi, yoksa birçok farklı kaynaktan çıkarsayarak mı? Bunu ayırt etmek neredeyse imkânsız. “Paris Fransa’nın başkentidir” bilgisi yüz farklı örnekten geçtiyse, tek bir örneği silmek hiçbir şeyi değiştirmiyor.

Maliyet ayrı bir problem. Fine-tuning bile büyük modellerde ciddi işlem gücü istiyor. Sık unlearning talebi olan ortamlar için bu yaklaşım sürdürülebilir değil.

Son olarak doğrulama: modelin gerçekten unuttuğunu nasıl kanıtlarsınız? Düz sorgular yanıltıcı. Yaratıcı yeniden çerçevelemeler, hedef bilgiyi yüzeye çıkarabilir ve çoğunlukla çıkarır.

TOFU Benchmark: Ölçüyor muyuz, Gizliyoruz mu?

2024’te yayımlanan TOFU (Task Of Forgetting Upon) çalışması, unlearning değerlendirmesi için hayali yazarlar kullandı: modeli sentetik yazar biyografileriyle eğittiler, ardından bu yazarları unlearning metodlarıyla silmeye çalıştılar.

Sonuç düşündürücü. Pek çok yöntem başarılı görünüyordu, ama daha derinlemesine sorgulama yapıldığında model o bilgiye erişmeye devam ediyordu. Model, unlearning sonrası doğrudan sorulara yanlış cevap veriyordu; ama dolaylı sorgular aynı bilgiyi ortaya çıkarıyordu.

İki metrik öne çıktı: Forget Quality (hedef bilgi ne kadar silindi?) ve Model Utility (geri kalan her şey hâlâ çalışıyor mu?). Bu ikisi arasındaki gerilim unlearning araştırmasının temel problemidir. Birini iyileştirmek diğerini bozma riskini taşır.

Exact vs Approximate: Ne Zaman Hangisi?

Exact unlearning, modeli yeniden eğitmekle matematiksel olarak özdeş sonuç verdiği için daha güçlü güvencelere sahip. Ama bu gerekliliğin maliyeti büyük modellerde kabul edilemez.

Approximate unlearning, gerçek uygulamalar için tek gerçekçi yol. Ama burada “ne kadar iyi?” sorusuna cevap vermek zor. Bir model verinin izini “yeterince” kaldırıyorsa bu ne anlama geliyor? GDPR mahkemeleri bu tanımı henüz netleştirmedi.

Yapay zeka güvenliği açısından bakıldığında, approximate unlearning yöntemiyle temizlenmiş bir modelin zararlı bilgiyi gerçekten üretemediğini doğrulamak için red-teaming ve sızma testi süreçleri gerekiyor. Bunu ölçekli yapmak ayrı bir mühendislik problemi.

Gerçek Dünya Uygulamaları

Telif tarafında, bir yayıncı eğitim verisinden kaldırılmasını talep ettiğinde yapay zeka şirketinin bunu yapabilecek teknik bir süreci olması gerekiyor. Çoğunlukla yok.

GDPR talepleri daha karmaşık. Kullanıcıların verileri sistem katmanında silinebiliyor, ama bu, modelin o veriyle öğrendiklerini kapsamıyor. İkisi arasındaki hukuki boşluk henüz kapanmadı.

Zararlı içerik kaldırma belki en kritik senaryo. Bir modelin belirli bir kapasiteyi kaybetmesi için reddetme davranışı öğretmek yetersiz; jailbreak edilebilir. Parametrik düzeyde müdahale, o bilgiyi hiç sahip olunmamış hale getirir.

PII sızıntısı tespit edildiğinde ise tam yeniden eğitim yerine hedefli unlearning hem daha hızlı hem daha ucuz. Tek problem: işe yaradığını kanıtlamak.

2026’da Unlearning Nerede?

Araştırma hız kazandı ama standartlaşma henüz yok. AB Yapay Zeka Yasası, yüksek riskli sistemler için veri silme kapasitesi öngörüyor; ama metodolojik gereksinimler belirsiz.

Büyük model sağlayıcıları unlearning konusunda sessiz kalmayı tercih ediyor. Kısmen çünkü iş kaybı anlamına geliyor (yeniden eğitim geliri), kısmen çünkü mevcut yöntemlerin yeterliliğini kanıtlamak zor.

Transfer learning ve ince ayar bağlamında geliştirilen araçların bir kısmı unlearning için de kullanılabiliyor, ama tersine süreç çok daha az olgun.

Unlearning yalnızca teknik bir problem değil. Bir modelin “gerçekten unuttuğunu” kanıtlama sorumluluğu kime ait? Hangi standart yeterli sayılır? Bu sorular hukuki, etik ve teknik düzlemlerin kesişiminde duruyor. Güven ve hesap verebilirlik meselesine dönüştüğünde ise mühendislik çözümleri yalnızca başlangıç noktası.

LLM Unlearning Nedir? Modeli Veri Silmeye Zorlamak

LLM Unlearning Nedir?