Adversarial Examples (Düşmanca Örnekler)

Adversarial Examples, makine öğrenimi modellerini yanıltmak için insan gözüyle fark edilemeyecek küçük ama kasıtlı pertürbasyonlar eklenmiş giriş örnekleridir.

Adversarial Examples (Düşmanca Örnekler), derin öğrenme modellerinin karar sınırlarındaki kırılgan noktaları istismar etmek amacıyla orijinal giriş verisine matematiksel olarak hesaplanmış küçük ama kasıtlı pertürbasyonlar eklenerek oluşturulan ve modelin yanlış sınıflandırma yapmasına ya da beklenmedik çıktı üretmesine yol açan özel saldırı girdileridir. Pertürbasyonlar çoğunlukla insan algı eşiğinin altında kalır; başka bir deyişle değiştirilmiş görüntü ya da metin insana özgün ile özdeş görünür, ancak model bunu tamamen farklı bir sınıf olarak sınıflandırır. Ian Goodfellow, Jonathon Shlens ve Christian Szegedy 2014 yılında yayımladıkları 'Explaining and Harnessing Adversarial Examples' başlıklı seminal çalışmada, Fast Gradient Sign Method (FGSM) ile herhangi bir görüntü üzerinde modelin kaybının gradyanı yönünde epsilon büyüklüğünde tek adımlık bir güncellemenin modeli yanıltmaya yettiğini gösterdi. Bu keşif, saldırı-savunma silahlanma yarışının fitilini ateşledi. Saldırı türleri iki temel eksende ayrılır. Gradient tabanlı beyaz kutu (white-box) saldırılar modelin ağırlıklarına tam erişimle çalışır: FGSM tek adımlı ve hızlıdır; Projected Gradient Descent (PGD) yinelemeli ve çok daha güçlüdür; Carlini & Wagner (C&W) en küçük pertürbasyon normuyla en yüksek yanıltma başarısını hedefler. Siyah kutu (black-box) saldırılar ise yalnızca model çıktısına erişimle tahmin saldırısı yapar; adversarial pertürbasyonların modeller arasında aktarılabilirliği (transferability) bu saldırıları pratikte tehlikeli kılar. Savunma yöntemlerinin başında adversarial training gelir: modeli adversarial örnekler de dahil edilerek yeniden eğitmek, bilinen saldırılara karşı dayanıklılığı artırır, ancak daha güçlü yeni saldırılara karşı yeterli olmayabilir. Certified defense yaklaşımları (Randomized Smoothing, interval bound propagation) matematiksel olarak kanıtlanmış dayanıklılık garantisi sunar; input preprocessing, feature squeezing ve detection-based yöntemler de kullanılan katmanlı savunma stratejileri arasındadır. Adversarial Examples artık sadece görüntü sınıflandırmasında değil, LLM jailbreak'inde, konuşma tanıma sistemlerinde, nesne tespitinde ve otonom araç algı sistemlerinde doğrudan güvenlik tehdidi oluşturmaktadır. NIST AI RMF ve AB Yapay Zeka Kanunu bu tür saldırılara karşı dayanıklılık gerekliliklerini çerçeveleyen düzenleyici belgeler arasındadır.

science Adversarial Saldırılar Nasıl Üretilir?

Adversarial pertürbasyonlar, modelin kayıp fonksiyonunun girişe göre gradyanı kullanılarak hesaplanır. FGSM (Fast Gradient Sign Method), bu gradyanın işaretine epsilon büyüklüğünde bir adım atar. Pertürbasyon büyüklüğü epsilon genellikle piksel değerlerinin yüzde 1 ile 5 gibi çok küçük tutulur. PGD (Projected Gradient Descent), FGSM adımını k kez yineleyerek pertürbasyonu belirli bir sınır içinde tutar ve çok daha güçlü adversarial örnek üretir. Carlini & Wagner (C&W) saldırısı ise pertürbasyonun L2 ya da Linf normunu minimize ederken doğru sınıflandırmayı bozmayı kısıt olarak formüle eder; bu sayede gözle görülmesi en zor, en hassas pertürbasyonları hesaplar. Siyah kutu saldırılarında modele doğrudan erişim olmadığından saldırganlar yerel vekil modeller üzerinde beyaz kutu saldırısı üretir ve bu pertürbasyonların hedef modele transfer olmasını bekler. Adversarial transferability, pertürbasyonların farklı mimari ve ağırlıklara sahip modeller arasında geçerliliğini koruma özelliği, bu tehdidi pratikte tehlikeli kılan ana faktördür.

Saldırı Türleri

bolt FGSM (Beyaz Kutu)

Tek adımlı, gradyan işareti tabanlı saldırı. Hızlı ve hesaplaması ucuzdur; özellikle adversarial training veri kümesi üretiminde kullanılır.

repeat PGD (Beyaz Kutu)

Yinelemeli FGSM; her adımda epsilon topuna projeksiyon uygular. Bilinen en güçlü iteratif saldırıdır; adversarial sağlamlık değerlendirmesinin endüstri standardıdır.

precision_manufacturing C&W (Beyaz Kutu)

Minimum pertürbasyon normuyla yanıltmayı kısıt optimizasyonu olarak çözer. Distilasyon tabanlı savunmalar da dahil pek çok erken savunma yaklaşımını aşmıştır.

swap_horiz Transfer (Siyah Kutu)

Yerel vekil modelde üretilen adversarial örnekler, hedef modelde de yanlış sınıflandırmaya yol açar. Gerçek dünya saldırılarının ana vektörüdür.

security Savunma Yöntemleri

  • check_circle Adversarial Training (PGD-AT): Eğitim setine PGD adversarial örnekler eklenerek modelin min-max optimizasyonla sağlamlaştırılması; bilinen en etkili deneysel savunma yöntemidir.
  • check_circle Randomized Smoothing: Giriş üzerine Gauss gürültüsü ekleyip tahminleri ortalamayla birleştiren ve kanıtlanmış L2 sağlamlık garantisi sunan sertifikeli savunma yöntemidir.
  • check_circle Input Preprocessing & Feature Squeezing: Adversarial pertürbasyonları yumuşatmak amacıyla median filtreleme, bit-depth reduction veya JPEG sıkıştırma gibi ön işleme adımları uygulama yaklaşımıdır.
  • check_circle Detection-Based Defense: Adversarial örnekleri orijinal dağılımdan ayrıştırmak için yan sınıflandırıcı, istatistiksel test veya özellik aktivasyon anormallik tespiti kullanma yöntemidir.

quiz Sıkça Sorulan Sorular (SSS)

  • check_circle Adversarial examples neden bu kadar küçük pertürbasyonla çalışır?: Derin sinir ağlarının yüksek boyutlu girdi uzayında doğrusal olmayan karar sınırları, küçük yönlü adımlarla kolayca geçilebilecek hassas kırılgan bölgeler barındırır. Girdi boyutu arttıkça gradyanın birikimli etkisi de artar; bu nedenle yüksek boyutlu görüntülerde bile epsilon çok küçük tutulabilir.
  • check_circle Adversarial pertürbasyonlar neden farklı modeller arasında transfer olur?: Farklı mimarilerle eğitilmiş modeller benzer karar sınırları ve özellik temsilleri öğrenir. Bu benzerlik, bir modelde üretilen pertürbasyonun başka bir modelde de aynı yönde kayıpları artırmasına yol açar. Ensemble üzerinde üretilen pertürbasyonlar daha iyi transfer özelliği gösterir.
  • check_circle Adversarial training tüm saldırılara karşı kalıcı çözüm müdür?: Hayır. PGD-AT bilinen saldırılara karşı sağlamlığı önemli ölçüde artırır, ancak 'robust overfitting' sorunu ve yeni saldırılara karşı açıklar mevcuttur. Ayrıca adversarial sağlamlık ile standart doğruluk arasında genellikle bir accuracy-robustness tradeoff vardır.
  • check_circle LLM'lerde adversarial saldırı nasıl görünür?: Metin tabanlı saldırılar jailbreak, prompt injection ve homoglif karakterler aracılığıyla filtreleri bypass eden ya da beklenmedik davranışlara yol açan girdiler şeklinde ortaya çıkar. Görüntü-metin modellerinde görüntüye gömülü pertürbasyonlar CLIP veya LLaVA gibi modelleri manipüle edebilir.