tag ModelDayanıklılığı

Bu sayfada ModelDayanıklılığı etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

shield

Adversarial Examples (Düşmanca Örnekler)

Adversarial Examples (Düşmanca Örnekler), derin öğrenme modellerinin karar sınırlarındaki kırılgan noktaları istismar etmek amacıyla orijinal giriş verisine matematiksel olarak hesaplanmış küçük ama kasıtlı pertürbasyonlar eklenerek oluşturulan ve modelin yanlış sınıflandırma yapmasına ya da beklenmedik çıktı üretmesine yol açan özel saldırı girdileridir. Pertürbasyonlar çoğunlukla insan algı eşiğinin altında kalır; başka bir deyişle değiştirilmiş görüntü ya da metin insana özgün ile özdeş görünür, ancak model bunu tamamen farklı bir sınıf olarak sınıflandırır. Ian Goodfellow, Jonathon Shlens ve Christian Szegedy 2014 yılında yayımladıkları 'Explaining and Harnessing Adversarial Examples' başlıklı seminal çalışmada, Fast Gradient Sign Method (FGSM) ile herhangi bir görüntü üzerinde modelin kaybının gradyanı yönünde epsilon büyüklüğünde tek adımlık bir güncellemenin modeli yanıltmaya yettiğini gösterdi. Bu keşif, saldırı-savunma silahlanma yarışının fitilini ateşledi. Saldırı türleri iki temel eksende ayrılır. Gradient tabanlı beyaz kutu (white-box) saldırılar modelin ağırlıklarına tam erişimle çalışır: FGSM tek adımlı ve hızlıdır; Projected Gradient Descent (PGD) yinelemeli ve çok daha güçlüdür; Carlini & Wagner (C&W) en küçük pertürbasyon normuyla en yüksek yanıltma başarısını hedefler. Siyah kutu (black-box) saldırılar ise yalnızca model çıktısına erişimle tahmin saldırısı yapar; adversarial pertürbasyonların modeller arasında aktarılabilirliği (transferability) bu saldırıları pratikte tehlikeli kılar. Savunma yöntemlerinin başında adversarial training gelir: modeli adversarial örnekler de dahil edilerek yeniden eğitmek, bilinen saldırılara karşı dayanıklılığı artırır, ancak daha güçlü yeni saldırılara karşı yeterli olmayabilir. Certified defense yaklaşımları (Randomized Smoothing, interval bound propagation) matematiksel olarak kanıtlanmış dayanıklılık garantisi sunar; input preprocessing, feature squeezing ve detection-based yöntemler de kullanılan katmanlı savunma stratejileri arasındadır. Adversarial Examples artık sadece görüntü sınıflandırmasında değil, LLM jailbreak'inde, konuşma tanıma sistemlerinde, nesne tespitinde ve otonom araç algı sistemlerinde doğrudan güvenlik tehdidi oluşturmaktadır. NIST AI RMF ve AB Yapay Zeka Kanunu bu tür saldırılara karşı dayanıklılık gerekliliklerini çerçeveleyen düzenleyici belgeler arasındadır.

arrow_forward