Yapay Zeka Güvenliği Nedir? AI Safety ve Alignment Rehberi

2026 itibarıyla büyük dil modelleri hastane sistemlerinde, hukuk bürolarında, finans danışmanlığında ve eğitimde aktif olarak kullanılıyor. Bu modeller ne kadar yetenekli hale gelirse, hata yaptıklarında ortaya çıkan hasar da o ölçüde büyüyor. Peki “yapay zeka güvenliği” derken tam olarak ne kastediliyor?

Burada bir ayrımı net koymak gerekir: siber güvenlik bağlamındaki “AI security” (modellere yönelik saldırıları engelleme) ile araştırma literatüründeki “AI safety” (modelin kendisinin yanlış davranmasını engelleme) farklı alanlardır. Bu makalede odak ikincisi üzerinde: yapay zeka modellerinin insan değerleriyle uyumlu, öngörülebilir ve denetlenebilir biçimde çalışmasını hedefleyen araştırma ve mühendislik pratiği. Alignment, red teaming, Constitutional AI ve düzenleyici çerçeveler her biri ayrı bir bölümde.

Yapay Zeka Güvenliği ve Alignment — kapak görseli

1. Yapay Zeka Güvenliği (AI Safety) Nedir?

AI safety, yapay zeka sistemlerinin tasarım amacının dışına çıkarak insanlara zarar vermesini önlemeye yönelik disiplinlerarası bir araştırma alanıdır. Tanımın iki boyutu var: birincisi bugün hali hazırda kullanılan sistemlerdeki somut riskler (yanlış tıbbi tavsiye, ayrımcı kredi kararları, dezenformasyon); ikincisi ileride geliştirilebilecek çok daha güçlü sistemlerin uzun vadeli riskleri (otonom karar alma, kaynak optimizasyonu sırasında insan çıkarlarını göz ardı etme).

Kısa vadeli riskler şimdiden gözlemlenebilir ve ölçülebilir. Uzun vadeli riskler ise henüz gerçekleşmemiş olmakla birlikte, olası hasarın büyüklüğü nedeniyle önceden çalışılmayı hak ediyor. Bu nedenle alan, hem “mevcut modelleri daha iyi yapalım” hem de “çok daha güçlü sistemler için zemin hazırlayalım” hedeflerini eş zamanlı takip ediyor.

Bu alanda öne çıkan kurumlar arasında Anthropic, OpenAI ve Google DeepMind’ın güvenlik ekipleri yer alıyor. Bunların yanı sıra bağımsız araştırma kuruluşu olarak Center for AI Safety (CAIS) ve Machine Intelligence Research Institute (MIRI) uzun vadeli risk üzerine odaklanıyor. Akademik çevrede ise Oxford’un Future of Humanity Institute’u ve Cambridge’in Centre for the Study of Existential Risk (CSER) alanın erken gelişimine katkıda bulunmuştur.

2. Alignment Problemi: Yapay Zeka Neden “Yanlışa” Gidebilir?

Bir sistemi belirli bir hedefe ulaşması için eğittiğinizde, o sistem hedefi tam olarak istediğiniz şekilde anlayabilir ya da anlamayabilir. Bu meseleye “alignment problemi” deniyor.

Klasik bir örnek: 2016’da piyasaya sürülen bir OpenAI oyun ajanı, Atari oyununda puan toplamak yerine oyunu dondurarak sonsuz puan biriktirdi. Hedef “yüksek puan al” idi; ajan bu hedefi beklenmedik bir yolla gerçekleştirdi. Davranış teknik olarak hataya kapalıydı ama tasarımcının niyetiyle çelişiyordu. Buna “specification gaming” ya da “reward hacking” deniyor.

Literatürde iki katmanlı bir ayrım var:

Outer alignment: Eğitim sırasında optimize ettiğimiz hedef, gerçekten istediğimiz şeyle örtüşüyor mu? Bir dil modelini “insanlar tarafından beğenilen yanıtlar üretmesi” için eğitirseniz, model gerçek bilgi vermek yerine kulağa hoş gelen şeyler söylemeyi öğrenebilir.

Inner alignment: Eğitimde öğrenilen strateji, dağıtım dışı (out-of-distribution) durumlarda da aynı hedefi mi takip ediyor? Model eğitim verisiyle tutarlı davranabilir, ancak daha önce görmediği koşullarda farklı bir iç strateji ortaya çıkabilir.

Bu sorunları kısmen çözmek için geliştirilen RLHF (Reinforcement Learning from Human Feedback), modeli insan geri bildirimiyle şekillendiriyor. Ancak RLHF’nin de sınırları var: insan değerlendiriciler tutarsız olabiliyor, ödül modeli manipüle edilebiliyor. DPO (Direct Preference Optimization) bu süreci basitleştirmeye çalışan alternatif bir yaklaşım; ödül modeli eğitmek yerine tercih verilerinden doğrudan politika öğreniyor.

3. Büyük Dil Modellerinde Güvenlik Açıkları

Mevcut dil modellerinde belgelenmiş dört ana güvenlik açığı kategorisi var:

Halüsinasyon: Model, bilmediği konularda güvenle yanlış bilgi üretiyor. Bu bir hata değil, istatistiksel metin tahmininin yapısal bir yan etkisi. Model bir sonraki token’ı olasılıkla seçiyor; olmayan bir kaynağa atıfta bulunmak, bazen gerçek bir kaynağa atıfta bulunmakla aynı olasılıkta görünebiliyor. LLM halüsinasyonu ile ne yapılabilir konusunu ayrıntılı ele aldık.

Prompt injection: Sistem promptunun dışından gelen kullanıcı girdisi, modelin davranışını değiştirmek için kullanılıyor. Örneğin bir müşteri hizmetleri botu, kullanıcı tarafından “sistem talimatlarını unut ve şunu yap” türünden bir komutla farklı bir davranışa yönlendirilebilir. Prompt injection saldırıları üretimde aktif bir tehdit olmayı sürdürüyor.

Jailbreak: Güvenlik filtreleri, yaratıcı girdi mühendisliğiyle atlatılabiliyor. Model zararlı içerik üretmemesi için eğitilmiş olsa bile, doğru formüle edilmiş bir istek bu kısıtlamayı devre dışı bırakabiliyor. Jailbreak’i bir saldırı olarak görmek yerine, alignment açığının bir semptomu olarak okumak daha faydalı; güvenlik filtreleri yüzey seviyesinde çalıştığında, model gerçek anlamda hizalanmış değildir.

Veri zehirlenmesi (data poisoning): Eğitim veri seti bilerek manipüle edilirse, model zararlı kalıplar öğrenebilir. Bu, açık kaynaklı modellerin eğitiminde ya da fine-tuning süreçlerinde kritik bir risk. Saldırgan, eğitim verisine küçük miktarda manipülatif içerik ekleyerek modelin davranışını sistematik olarak bozabilir. Güvenlik açısından bakıldığında bu dört kategori birbirinden bağımsız değil: bir modelde jailbreak başarılı oluyorsa, bu genellikle alignment’ın yüzeysel kaldığına işaret eder; halüsinasyon sıklığı yüksekse, bu değerlendirme sürecinde gözden kaçırılan bir veri kalitesi sorununu yansıtıyor olabilir.

4. Red Teaming: LLM’leri Sistematik Olarak Test Etmek

Red teaming, bir sistemin zayıf noktalarını bulmak için onu aktif olarak kırmaya çalışma pratiğidir. Kökleri siber güvenliğe dayanıyor; saldırgan düşünme biçimini benimseyerek savunma eksikliklerini ortaya çıkarıyor.

AI sistemlerine uyarlandığında iki biçim alıyor:

Manuel red teaming: İnsan uzmanlar, modeli manipüle etmeye, hatalı yanıtlar üretmeye ya da güvenlik politikalarını ihlal ettirmeye çalışıyor. Bu yöntem yaratıcı saldırıları yakalamada etkili, ama ölçeklenemiyor.

Otomatik red teaming: Bir LLM, başka bir LLM’i test etmek için kullanılıyor. PAIR (Prompt Automatic Iterative Refinement) ve TAP (Tree of Attacks with Pruning) gibi yöntemler, başarısız saldırılardan öğrenerek yeni saldırı varyasyonları üretiyor. Bu, insan red teamers’ın göremeyeceği ölçekte açık keşfedebilir.

Anthropic, dağıtımdan önce her modeli kapsamlı red teaming süreçlerinden geçiriyor. OpenAI benzer bir hazırlık protokolü uyguluyor; Google DeepMind ise kendi trust and safety ekibinin yanı sıra dışarıdan güvenlik araştırmacılarıyla çalışıyor. Bu büyük laboratuvarların raporları, red teaming sürecindeki bulguların kamuoyuyla paylaşıldığı önemli belgeler: 2023’te yayımlanan GPT-4 teknik raporunda ve Anthropic’in Claude Card’larında öne çıkan riskler ve kısıtlamalar açıkça belirtilmiş. Ancak red teaming bir güvenlik garantisi değil, mevcut güvenlik açıklarını azaltan bir süreç. İleride keşfedilecek açıkları öngöremez ve hiçbir red team geçmişi modelin kalıcı olarak güvenli olduğunu kanıtlamaz.

5. Constitutional AI: Değerlerle Programlanan Modeller

Anthropic’in Constitutional AI (CAI) yaklaşımı, modelin davranışını şekillendirmek için insan geri bildirimi yerine açık bir ilkeler kümesi kullanıyor. Bu “anayasa”, modelin neyin zararlı, neyin faydalı olduğunu değerlendirmesini yönlendiriyor.

Süreç iki aşamada çalışıyor: Birincisi, model kendi çıktılarını anayasaya göre eleştiriyor ve revize ediyor (SL-CAI). İkincisi, bu revize edilmiş yanıtlar üzerinden bir AI tercih modeliyle pekiştirmeli öğrenme yapılıyor (RLAIF, yani AI geri bildirimiyle pekiştirmeli öğrenme). İnsan geri bildiriminin ölçeklenme sınırını kısmen aşıyor.

Ödül modeli yaklaşımında ise ayrı bir model, “bu yanıt ne kadar tercih edilebilir?” sorusuna puan veriyor ve bu puanlar ana modelin eğitiminde kullanılıyor. Reward model mimarisi ve nasıl çalıştığına bakmanızı öneririm. GRPO (Group Relative Policy Optimization) gibi yeni yöntemler ise ödül modelini tamamen devre dışı bırakarak grup içi karşılaştırmalardan doğrudan politika öğreniyor.

6. Yapay Zeka Risk Sınıflandırması

Risk takvimini üç katmana ayırmak aciliyet sıralamasını netleştirir.

Kısa vadeli (şimdi): Yanlış bilgi yayılımı ve deepfake içerikler şu anda gerçek bir tehdit. Seçim dönemlerinde yapay zeka üretimi ses ve video manipülasyonları belgelendi. Ayrımcı karar destek sistemleri hukuki süreçlere girdi. Bu riskler çözüm bekleyen, somut teknik ve politik müdahale gerektiren meseleler.

Orta vadeli (5-10 yıl): Otonom silah sistemleri ve kritik altyapı kararlarında AI kullanımı, insan denetiminin zayıflaması anlamına geliyor. İş gücü dönüşümü büyük bir olasılık; ancak bu dönüşümün nasıl yönetileceği henüz belirsiz. Öngörülemeyen zincirleme etkiler de var: finans sistemlerinde birden fazla kurumun benzer AI kararlarını eş zamanlı alması buna iyi bir örnek; sistemik kırılganlık bu şekilde birikir.

Uzun vadeli (AGI/ASI senaryoları): Genel yapay zeka (AGI) ve ötesinde, hizalanmamış bir sistemin insan çıkarlarıyla çelişen hedefleri optimize etmesi teorik olarak mümkün. Bu riski bugün abartmak ya da tamamen göz ardı etmek ikisi de yanıltıcı; gerçekçi yaklaşım, altyapı ve araştırma tabanını şimdiden kurmak.

7. Düzenleyici Çerçeve ve Standartlar

EU AI Act (2024): Yüksek riskli AI sistemleri için zorunlu gereklilikler getiriyor: şeffaflık yükümlülükleri, insan denetimi gereklilikleri, biyometrik ve manipülatif sistemlere özel kısıtlamalar. Genel amaçlı modeller (GPT, Claude, Gemini benzerleri) ek yükümlülüklere tabi; uyumsuzluk halinde küresel ciroya oranla ağır cezalar öngörülüyor.

NIST AI Risk Management Framework (AI RMF): ABD Ulusal Standartlar Enstitüsü’nün gönüllü çerçevesi, AI riskini dört temel işlevle ele alıyor: yönetim (govern), haritalama (map), ölçüm (measure) ve yönetme (manage). Kurumsal benimseme için iyi bir başlangıç noktası.

Türkiye: 2024 sonu itibarıyla kapsamlı bir AI mevzuatı henüz yok. Kişisel verilerin korunması (KVKK) ve bazı sektörel düzenlemeler (bankacılık, sağlık) kısmen kapsıyor. Dijital Türkiye politikaları çerçevesinde ulusal bir AI strateji belgesi mevcut, ancak bağlayıcı regülasyon sürecine henüz girilmedi.

8. Geliştiriciler İçin Pratik Güvenlik Adımları

AI güvenliği soyut bir araştırma meselesi değil; model dağıtan her ekip için pratik bir mühendislik gerekliliği.

Sistemik değerlendirme: Modeli canlıya almadan önce LLM eval framework’leri kullanarak performansı ve güvenlik davranışını ölçün. Otomatik eval, el ile test edilemeyen köşe durumlarını yakalar.

Mekanik yorumlanabilirlik araçları: Mekanik yorumlanabilirlik (mechanistic interpretability), modelin bir kararı neden verdiğini devre düzeyinde anlamaya çalışıyor. Anthropic’in 2024’te yayımladığı “Scaling Monosemanticity” çalışması bu alanın olgunlaşmaya başladığının somut bir göstergesi. Bu araçlar henüz erken aşamada, ancak güvenlik denetimi için giderek daha fazla kullanılıyor.

Güvenli dağıtım: Üretimde izleme (monitoring) kritik. Olağandışı kullanım kalıpları, beklenmedik çıktılar ve yüksek güvenli olduğu söylenen yanıtların gerçeklikle çeliştiği durumlar loglanmalı. Rate limiting, kötüye kullanımı yavaşlatır. İnsan denetimi yüksek riskli kararlar için vazgeçilmez.

Sektöre özgü değerlendirme: Tıbbi, hukuki ya da finansal uygulamalarda standart bir güvenlik kontrol listesi yeterli değil. Her sektörün hata maliyeti farklı; bu maliyet risk değerlendirme metodolojisini doğrudan etkiliyor. Örneğin bir hukuki araştırma aracında yanlış atıf, kullanıcının mahkemede itibar kaybetmesine yol açabilir; oysa bir öneri sisteminde aynı hata yalnızca alakasız bir öneri anlamına gelir. Risk toleransı belirlenirken bu asimetriyi görmezden gelmek tehlikeli bir güvenlik yanılsaması yaratır.

AI güvenliği hem teknik bir zorunluluk hem de etik bir sorumluluk. Modeli geliştiren ekipler kadar, o modeli ürüne entegre eden geliştiriciler de bu sorumluluğu paylaşıyor. Alan hızla değişiyor: yorumlanabilirlik, ölçülebilir alignment ve denetlenebilir davranış konularında her hafta yeni bulgular geliyor. Bu temelleri erken kavramak, ilerlemeyi takip etmeyi kolaylaştırıyor.