Saldırı Nasıl Çalışır?
Model zehirleme, makine öğrenmesi sisteminin en kritik aşaması olan eğitim sürecini hedef alır. Saldırgan eğitim veri setine erişim sağlayarak kötü niyetli örnekler (poisoned samples) enjekte eder. Bu örnekler modelin ağırlıklarını, karar sınırlarını veya temsil öğrenmesini etkileyerek istemsiz davranışlara yol açar. Saldırı, üretim ortamında modelin beklenmedik biçimde hata yapmasıyla kendini gösterir.
Başlıca Saldırı Türleri
Arka kapı saldırısı (Backdoor Attack): Saldırgan modele gizli bir tetikleyici yerleştirir. Model normal girişlerde doğru çalışırken tetikleyiciyi içeren girişlerde yanlış çıktı üretir. Standart doğruluk metrikleri normal durumlarda yüksek kaldığından tespiti güçtür. Etiket çevirme saldırısı (Label-Flip Attack): Eğitim örneklerinin etiketleri değiştirilerek modelin hedef sınıfı yanlış öğrenmesi sağlanır. Clean-label saldırısı: Örnekler doğru etiketlenir ancak algılanamayan gürültü eklenerek modelin karar sınırları bozulur; veri denetimini atlatabilir.
Federe Öğrenmede Tehdit
Federe öğrenme (federated learning) mimarisinde her istemci yerel modelini eğitir ve yalnızca güncellemeleri merkezi sunucuya gönderir. Model zehirleme bu ortamda özellikle tehlikelidir: Kötü niyetli bir istemci yerel model güncellemesini manipüle ederek küresel modeli bozabilir. Standart FedAvg toplama algoritmasının bu saldırıya karşı savunmasız olduğu araştırmalarla gösterilmiştir.
Gerçek Dünya Örnekleri
Araştırmacılar, otonom araç görüntü tanıma sistemlerinin yalnızca yüzde yedi ila sekiz oranında veri zehirlemesiyle dur levhasını yeşil ışık olarak sınıflandırabildiğini ortaya koymuştur. Büyük dil modellerine kötü niyetli belgeler enjekte edilerek modelin hassas verileri dışarıya sızdırması sağlanmıştır. İçerik moderasyon sistemleri ise belirli görsel örüntüler veya ifadeler içeren zararlı materyalleri geçirmek üzere hedefli olarak zehirlenmiştir.
Savunma Yöntemleri
Veri temizleme (Data Sanitization): Eğitim setinin anomali tespiti ve güven puanlaması ile şüpheli örneklerden arındırılması. Byzantine-dayanıklı toplama: Federe öğrenmede kötü niyetli güncellemeleri filtrelemek için Krum, Trimmed Mean veya Median tabanlı algoritmalar. Neural Cleanse ve STRIP: Backdoor saldırılarını tespit etmek için eğitilmiş model davranışını analiz eden araçlar. Sertifikalı savunmalar (Certified Defenses): Randomized smoothing gibi yöntemlerle belirli sayıda zehirleme örneğine karşı kanıtlanabilir garantiler sunulması.
Yasal ve Uyumluluk Boyutu
AB Yapay Zeka Yasası (EU AI Act), yüksek riskli yapay zeka sistemlerinde eğitim verisi kalitesini ve bütünlüğünü açıkça zorunlu kılmaktadır. Organizasyonların eğitim veri kaynaklarını denetlemesi, veri bütünlüğünü doğrulaması ve model davranışını izlemesi gerekmektedir. Model zehirlemeye karşı önlem almak, teknik güvenlik gereksinimlerinin yanı sıra yasal bir yükümlülük haline gelmektedir.