Güvenlik Testi (AI) Nedir? LLM ve Yapay Zeka Saldırı Testi

AI Güvenlik Testi Nedir?

Güvenlik Testi (AI), yapay zeka sistemlerinin güvenlik ve emniyet açıklarını tespit etmek amacıyla uygulanan yapılandırılmış test sürecidir. Geleneksel siber güvenlik testinden farklı olarak; modelin eğitim verisi, çıkarım davranışı, istem (prompt) yönetimi ve ajan entegrasyonları gibi AI'ye özgü saldırı yüzeylerini hedefler. Bu disiplin iki ana amaca hizmet eder: birincisi, kötü niyetli aktörlerin AI sistemini istismar etmesini engellemek (güvenlik boyutu); ikincisi, modelin tasarım dışı ya da zararlı çıktılar üretmesini önlemek (emniyet boyutu). Modern AI dağıtımlarında her iki boyut da bir arada değerlendirilmelidir. AI güvenlik testinin kapsamı giderek genişlemektedir: 2025 itibarıyla LLM tabanlı uygulamalar, RAG (Retrieval-Augmented Generation) sistemleri, AI ajanları ve çok modlu modeller bu disiplinin temel test hedefleri arasına girmiştir.

Temel Saldırı Vektörleri

check_circle Prompt Injection: Modelin güvenlik talimatlarını atlatmak ya da kötü niyetli komutlar yürütmek amacıyla istem metninin manipüle edilmesidir. LLM uygulamalarının en kritik zafiyetlerinden biridir.
check_circle Veri Zehirlenmesi (Data Poisoning): Eğitim verisine kasıtlı olarak zararlı örnekler eklenerek modelin davranışının kalıcı biçimde bozulmasıdır. Model güncellemeleri sırasında tespit edilmesi güçtür.
check_circle Model Çıkarma (Model Extraction): Hedef modele yönelik çok sayıda sorgu göndererek modelin ağırlıklarını ya da karar sınırlarını yaklaşık olarak kopyalamaktır. Fikrî mülkiyet ve gizlilik ihlallerine yol açabilir.
check_circle Düşmansal Örnekler (Adversarial Examples): İnsan gözüne fark edilmeyecek küçük değişikliklerle model sınıflandırmasını yanıltmaya yönelik girdilerdir. Görüntü tanıma ve otonom araç sistemleri bu saldırıya özellikle açıktır.
check_circle Üye Çıkarımı (Membership Inference): Belirli bir veri noktasının modelin eğitim setinde yer alıp almadığını tahmin etme saldırısıdır. GDPR gibi düzenlemeler kapsamında kişisel veri sızıntısı riskine yol açar.

Red Teaming ve Test Metodolojisi

AI red teaming, düşmansal bir bakış açısıyla AI sistemlerini test etmeye yönelik yapılandırılmış bir yaklaşımdır. ABD Yürütme Kararnamesi AI'yi "yapay zeka sistemindeki kusur ve zafiyetleri bulmak amacıyla düşmansal yöntemler kullanan yapılandırılmış test çabası" olarak tanımlamaktadır. Red team tatbikatları genellikle üç aşamadan oluşur: keşif (sistemin mimarisini ve saldırı yüzeyini anlama), sömürü (belirlenen vektörleri test etme) ve raporlama (bulgular ve iyileştirme önerileri). Otomasyon ve insan uzmanlığının birleşimi, en kapsamlı sonuçları üretmektedir. 2026 itibarıyla ajansal red teaming araçları öne çıkmaktadır: bu araçlar, binlerce saldırı senaryosunu otomatik olarak çalıştırabilmekte ve manuel testlerin tespit edemediği zafiyetleri keşfedebilmektedir. Novee, CyberArk ve xhack.io gibi platformlar bu alanda öncü çözümler sunmaktadır.

Endüstri Standartları ve Çerçeveler

check_circle MITRE ATLAS: Gerçek dünya saldırılarından derlenen AI'ye özgü taktik, teknik ve prosedürler (TTP) kataloğu. MITRE ATT&CK'in AI versiyonu olarak değerlendirilebilir.
check_circle OWASP LLM Top 10 (2025): Büyük dil modeli uygulamalarındaki en kritik 10 güvenlik riskini öncelikli sıralamayla listeleyen açık kaynaklı kılavuz. Prompt injection, güvensiz çıktı yönetimi ve eğitim verisi zehirlenmesi üst sıralardadır.
check_circle NIST AI 100-2e2025: Yapay zeka sistemlerine yönelik saldırı taksonomisini standartlaştıran NIST belgesi. AI güvenlik değerlendirmelerinde referans çerçeve olarak kullanılmaktadır.
check_circle EU AI Act Gereklilikler: Yüksek riskli AI sistemleri için düzenli güvenlik değerlendirmesi, saldırı dayanıklılık testi ve olay bildirimi zorunluluklarını düzenleyen yasal çerçeve.