Model Inversion Attack (Model Tersine Mühendislik Saldırısı)
Model tersine mühendislik saldırısı (model inversion attack), bir makine öğrenimi modelinin eğitim verilerindeki hassas bilgileri, modelin tahminleri veya güven puanları aracılığıyla yeniden oluşturmayı hedefleyen bir gizlilik saldırısıdır. Saldırgan, modele sistematik sorgular göndererek elde ettiği çıktıları analiz eder ve bu çıktılardan geriye doğru çalışarak orijinal eğitim verilerini yaklaşık olarak tahmin etmeye çalışır.
Bu saldırı türü, 2015 yılında Matthew Fredrikson ve ekibinin yayımladığı araştırmayla gündeme gelmiştir. Fredrikson, bir ilaç tavsiye sistemini hedef alan çalışmasında hastaların genomik profillerini yalnızca model çıktılarını gözlemleyerek kısmen yeniden oluşturabilmiştir. Aynı ekip daha sonraki çalışmalarında yüz tanıma modellerinden gerçek yüz görüntülerini geri kazanmayı başarmıştır.
Saldırılar iki ana kategoride değerlendirilir. Beyaz-kutu (white-box) saldırılarında saldırgan model ağırlıklarına ve gradyanlarına doğrudan erişebilir; bu durum saldırıyı çok daha etkili kılar. Siyah-kutu (black-box) saldırılarında ise saldırgan yalnızca modele sorgu atabilir ve tahmin ile güven skoru alabilir; bu senaryo gerçek dünya koşullarını daha iyi yansıtır.
Saldırının temel mekanizması gradyan bazlı optimizasyona dayanır: Saldırgan, modelin hedef sınıfa en yüksek güveni vermesini sağlayan girdiyi arayarak adım adım yaklaşık bir eğitim örneği oluşturur. Generative model inversion olarak adlandırılan gelişmiş varyantlarda ise GAN veya diffusion modeller yardımıyla daha gerçekçi gizli veriler üretilmektedir.
Savunma yöntemleri arasında diferansiyel gizlilik (model çıktılarına istatistiksel gürültü ekleme), çıktı kısıtlama (yalnızca ham güven skoru yerine sınıf etiketi döndürme), bilgi damıtma ve gizlilik farkında eğitim sayılabilir. Sağlık, finans ve biyometrik kimlik doğrulama alanlarında bu saldırılara karşı sistematik savunma mekanizmaları oluşturmak kritik önem taşımaktadır.