science Adversarial Saldırılar Nasıl Üretilir?
Adversarial pertürbasyonlar, modelin kayıp fonksiyonunun girişe göre gradyanı kullanılarak hesaplanır. FGSM (Fast Gradient Sign Method), bu gradyanın işaretine epsilon büyüklüğünde bir adım atar. Pertürbasyon büyüklüğü epsilon genellikle piksel değerlerinin yüzde 1 ile 5 gibi çok küçük tutulur. PGD (Projected Gradient Descent), FGSM adımını k kez yineleyerek pertürbasyonu belirli bir sınır içinde tutar ve çok daha güçlü adversarial örnek üretir. Carlini & Wagner (C&W) saldırısı ise pertürbasyonun L2 ya da Linf normunu minimize ederken doğru sınıflandırmayı bozmayı kısıt olarak formüle eder; bu sayede gözle görülmesi en zor, en hassas pertürbasyonları hesaplar. Siyah kutu saldırılarında modele doğrudan erişim olmadığından saldırganlar yerel vekil modeller üzerinde beyaz kutu saldırısı üretir ve bu pertürbasyonların hedef modele transfer olmasını bekler. Adversarial transferability, pertürbasyonların farklı mimari ve ağırlıklara sahip modeller arasında geçerliliğini koruma özelliği, bu tehdidi pratikte tehlikeli kılan ana faktördür.
Saldırı Türleri
bolt FGSM (Beyaz Kutu)
Tek adımlı, gradyan işareti tabanlı saldırı. Hızlı ve hesaplaması ucuzdur; özellikle adversarial training veri kümesi üretiminde kullanılır.
repeat PGD (Beyaz Kutu)
Yinelemeli FGSM; her adımda epsilon topuna projeksiyon uygular. Bilinen en güçlü iteratif saldırıdır; adversarial sağlamlık değerlendirmesinin endüstri standardıdır.
precision_manufacturing C&W (Beyaz Kutu)
Minimum pertürbasyon normuyla yanıltmayı kısıt optimizasyonu olarak çözer. Distilasyon tabanlı savunmalar da dahil pek çok erken savunma yaklaşımını aşmıştır.
swap_horiz Transfer (Siyah Kutu)
Yerel vekil modelde üretilen adversarial örnekler, hedef modelde de yanlış sınıflandırmaya yol açar. Gerçek dünya saldırılarının ana vektörüdür.
security Savunma Yöntemleri
- check_circle Adversarial Training (PGD-AT): Eğitim setine PGD adversarial örnekler eklenerek modelin min-max optimizasyonla sağlamlaştırılması; bilinen en etkili deneysel savunma yöntemidir.
- check_circle Randomized Smoothing: Giriş üzerine Gauss gürültüsü ekleyip tahminleri ortalamayla birleştiren ve kanıtlanmış L2 sağlamlık garantisi sunan sertifikeli savunma yöntemidir.
- check_circle Input Preprocessing & Feature Squeezing: Adversarial pertürbasyonları yumuşatmak amacıyla median filtreleme, bit-depth reduction veya JPEG sıkıştırma gibi ön işleme adımları uygulama yaklaşımıdır.
- check_circle Detection-Based Defense: Adversarial örnekleri orijinal dağılımdan ayrıştırmak için yan sınıflandırıcı, istatistiksel test veya özellik aktivasyon anormallik tespiti kullanma yöntemidir.
quiz Sıkça Sorulan Sorular (SSS)
- check_circle Adversarial examples neden bu kadar küçük pertürbasyonla çalışır?: Derin sinir ağlarının yüksek boyutlu girdi uzayında doğrusal olmayan karar sınırları, küçük yönlü adımlarla kolayca geçilebilecek hassas kırılgan bölgeler barındırır. Girdi boyutu arttıkça gradyanın birikimli etkisi de artar; bu nedenle yüksek boyutlu görüntülerde bile epsilon çok küçük tutulabilir.
- check_circle Adversarial pertürbasyonlar neden farklı modeller arasında transfer olur?: Farklı mimarilerle eğitilmiş modeller benzer karar sınırları ve özellik temsilleri öğrenir. Bu benzerlik, bir modelde üretilen pertürbasyonun başka bir modelde de aynı yönde kayıpları artırmasına yol açar. Ensemble üzerinde üretilen pertürbasyonlar daha iyi transfer özelliği gösterir.
- check_circle Adversarial training tüm saldırılara karşı kalıcı çözüm müdür?: Hayır. PGD-AT bilinen saldırılara karşı sağlamlığı önemli ölçüde artırır, ancak 'robust overfitting' sorunu ve yeni saldırılara karşı açıklar mevcuttur. Ayrıca adversarial sağlamlık ile standart doğruluk arasında genellikle bir accuracy-robustness tradeoff vardır.
- check_circle LLM'lerde adversarial saldırı nasıl görünür?: Metin tabanlı saldırılar jailbreak, prompt injection ve homoglif karakterler aracılığıyla filtreleri bypass eden ya da beklenmedik davranışlara yol açan girdiler şeklinde ortaya çıkar. Görüntü-metin modellerinde görüntüye gömülü pertürbasyonlar CLIP veya LLaVA gibi modelleri manipüle edebilir.