Model Zehirleme (Poisoning) Nedir? Yapay Zeka Güvenlik Saldırısı (Model Zehirleme)

#güvenlik #adversarial #eğitim-verisi #federated-learning #backdoor

Model zehirleme, saldırganın eğitim verisine kötü niyetli örnekler enjekte ederek bir yapay zeka modelinin davranışını istediği yönde manipüle ettiği bir siber saldırı türüdür.

Model zehirleme (model poisoning veya training data poisoning), bir saldırganın yapay zeka modelinin eğitim sürecine müdahale ederek modelin davranışını kasıtlı olarak bozmayı hedeflediği bir güvenlik saldırısıdır. Saldırı, eğitim veri setine kötü niyetli örnekler eklenerek ya da mevcut etiketler değiştirilerek gerçekleştirilir; bu yolla model belirli koşullar altında hatalı çıktılar üretecek biçimde şekillendirilir. Temel iki saldırı biçimi öne çıkar: Arka kapı saldırıları (backdoor attacks), modelin belirli bir tetikleyici varlığında yanlış çıktı verirken normal durumlarda yüksek doğrulukta çalışmasını sağlar. Etiket çevirme saldırıları (label-flip attacks) ise örneklerin gerçek etiketlerini değiştirerek sistematik yanlış sınıflandırmalara neden olur. Federe öğrenme (federated learning) sistemleri bu saldırılara özellikle savunmasızdır; zira merkezi sunucuya gönderilen yerel model güncellemeleri saldırganlar tarafından manipüle edilebilir. Gerçek dünyada otonom araç sistemleri, büyük dil modelleri ve içerik moderasyon sistemleri bu saldırıların hedefleri arasında yer almaktadır. Savunma yöntemleri arasında veri temizleme (data sanitization), eğitim seti anomali tespiti ve Byzantine-dayanıklı toplama algoritmaları (Krum, Trimmed Mean) sayılabilir. AB Yapay Zeka Yasası yüksek riskli AI sistemlerinde eğitim veri güvenliğini açıkça zorunlu kılmaktadır.

Saldırı Nasıl Çalışır?

Model zehirleme, makine öğrenmesi sisteminin en kritik aşaması olan eğitim sürecini hedef alır. Saldırgan eğitim veri setine erişim sağlayarak kötü niyetli örnekler (poisoned samples) enjekte eder. Bu örnekler modelin ağırlıklarını, karar sınırlarını veya temsil öğrenmesini etkileyerek istemsiz davranışlara yol açar. Saldırı, üretim ortamında modelin beklenmedik biçimde hata yapmasıyla kendini gösterir.

Başlıca Saldırı Türleri

Arka kapı saldırısı (Backdoor Attack): Saldırgan modele gizli bir tetikleyici yerleştirir. Model normal girişlerde doğru çalışırken tetikleyiciyi içeren girişlerde yanlış çıktı üretir. Standart doğruluk metrikleri normal durumlarda yüksek kaldığından tespiti güçtür. Etiket çevirme saldırısı (Label-Flip Attack): Eğitim örneklerinin etiketleri değiştirilerek modelin hedef sınıfı yanlış öğrenmesi sağlanır. Clean-label saldırısı: Örnekler doğru etiketlenir ancak algılanamayan gürültü eklenerek modelin karar sınırları bozulur; veri denetimini atlatabilir.

Federe Öğrenmede Tehdit

Federe öğrenme (federated learning) mimarisinde her istemci yerel modelini eğitir ve yalnızca güncellemeleri merkezi sunucuya gönderir. Model zehirleme bu ortamda özellikle tehlikelidir: Kötü niyetli bir istemci yerel model güncellemesini manipüle ederek küresel modeli bozabilir. Standart FedAvg toplama algoritmasının bu saldırıya karşı savunmasız olduğu araştırmalarla gösterilmiştir.

Gerçek Dünya Örnekleri

Araştırmacılar, otonom araç görüntü tanıma sistemlerinin yalnızca yüzde yedi ila sekiz oranında veri zehirlemesiyle dur levhasını yeşil ışık olarak sınıflandırabildiğini ortaya koymuştur. Büyük dil modellerine kötü niyetli belgeler enjekte edilerek modelin hassas verileri dışarıya sızdırması sağlanmıştır. İçerik moderasyon sistemleri ise belirli görsel örüntüler veya ifadeler içeren zararlı materyalleri geçirmek üzere hedefli olarak zehirlenmiştir.

Savunma Yöntemleri

Veri temizleme (Data Sanitization): Eğitim setinin anomali tespiti ve güven puanlaması ile şüpheli örneklerden arındırılması. Byzantine-dayanıklı toplama: Federe öğrenmede kötü niyetli güncellemeleri filtrelemek için Krum, Trimmed Mean veya Median tabanlı algoritmalar. Neural Cleanse ve STRIP: Backdoor saldırılarını tespit etmek için eğitilmiş model davranışını analiz eden araçlar. Sertifikalı savunmalar (Certified Defenses): Randomized smoothing gibi yöntemlerle belirli sayıda zehirleme örneğine karşı kanıtlanabilir garantiler sunulması.

Yasal ve Uyumluluk Boyutu

AB Yapay Zeka Yasası (EU AI Act), yüksek riskli yapay zeka sistemlerinde eğitim verisi kalitesini ve bütünlüğünü açıkça zorunlu kılmaktadır. Organizasyonların eğitim veri kaynaklarını denetlemesi, veri bütünlüğünü doğrulaması ve model davranışını izlemesi gerekmektedir. Model zehirlemeye karşı önlem almak, teknik güvenlik gereksinimlerinin yanı sıra yasal bir yükümlülük haline gelmektedir.