Model Tersine Mühendislik Saldırısı Nasıl Çalışır?
Model inversiyonu, makine öğrenimi modellerinin tahminlerde bulunurken eğitim verisine dair bilgi sızdırması ilkesine dayanır. Tipik bir saldırı senaryosunda saldırgan, API aracılığıyla eriştiği bir modele rastgele veya hedefli girdiler göndererek güven skorlarını toplar. Ardından bu skorları kılavuz alarak, modelin belirli bir sınıf için en yüksek güveni vermesini sağlayan girdiyi optimize eder. Gradyan iniş (gradient descent) algoritması bu optimizasyon için kullanılır; white-box senaryosunda gradyanlar doğrudan hesaplanırken, black-box senaryosunda numerik yaklaşım veya transfer saldırıları tercih edilir. Optimizasyon tamamlandığında elde edilen yapay girdi, orijinal eğitim verisinin temsilini yaklaşık olarak yansıtır; örneğin bir yüz tanıma modelinde bu, gerçek bir kişinin yüz görüntüsü anlamına gelir.
Saldırı Türleri
- check_circle White-box Model Inversiyonu: Saldırganın model ağırlıklarına ve gradyanlarına tam erişimi vardır. Gradyan bazlı optimizasyon doğrudan uygulanır; akademik çalışmalarda yaygın senaryo budur.
- check_circle Black-box Model Inversiyonu: Saldırgan yalnızca tahmin ve güven skoru çıktılarına erişebilir. Gerçek dünya API saldırılarını temsil eder; daha fazla sorgu gerektirir.
- check_circle Generative Model Inversiyonu: GAN veya diffusion model kullanarak daha gerçekçi ve yüksek çözünürlüklü gizli veri örnekleri üretilir. Son yıllarda en güçlü saldırı biçimine dönüşmüştür.
- check_circle Attribute Inference: Tam veri kopyasını değil, bireylere ait hassas özellikleri (yaş, cinsiyet, hastalık) çıkarmayı hedefler. Daha az sorguda etkili sonuç verir.
Savunma Yöntemleri
- check_circle Diferansiyel Gizlilik: Model çıktılarına veya gradyanlarına matematiksel olarak kontrollü gürültü eklenerek hassas bilgi sızıntısı sınırlandırılır.
- check_circle Çıktı Kısıtlama: Güven skoru döndürmek yerine yalnızca sınıf etiketi veya top-k çıktı vermek saldırı yüzeyini önemli ölçüde azaltır.
- check_circle Bilgi Damıtma (Knowledge Distillation): Öğretmen modelden daha az bilgi sızdıran öğrenci model eğitilerek API yüzeyine sunulan bilgi minimuma çekilir.
- check_circle Gizlilik Farkında Eğitim: DP-SGD (Differentially Private SGD) kullanılarak eğitim sürecinde gradyanlara gürültü eklenir ve modelin veri ezberlemesi önlenir.
Sıkça Sorulan Sorular
- check_circle Model inversion ile membership inference arasındaki fark nedir?: Membership inference, belirli bir verinin eğitim setinde olup olmadığını test ederken; model inversion daha ileriye giderek orijinal eğitim verisinin içeriğini yeniden oluşturmaya çalışır. İkisi tamamlayıcı saldırılardır.
- check_circle Hangi model türleri en savunmasızdır?: Güven skoru döndüren sınıflandırıcılar (özellikle yüz tanıma ve tıbbi tahmin modelleri) ile aşırı ezberleyen (overfit) modeller en yüksek riski taşır. Genelleşen modeller görece daha az bilgi sızdırır.
- check_circle Bu saldırılar gerçek dünyada uygulanabilir mi?: Evet. Public MLaaS (Machine Learning as a Service) API'lerine karşı başarılı black-box saldırılar gösterilmiştir. API hız sınırlaması ve çıktı kısıtlama olmayan servislere karşı pratik bir tehdit oluşturur.
- check_circle GDPR ve AI Act kapsamında yasal sonuçları var mı?: Evet. Model inversiyonu kişisel veri ihlali sayılabilir. GDPR Madde 25 (privacy by design) ve AB AI Act bu tür saldırılara karşı teknik koruma yükümlülüğü getirir.