
Claude’a zararlı bir şey yazdığında aldığın ret cevabı olağandışı bir özellik taşıyor: model neden reddettiğini açıklıyor. Bir kural listesine bakarak karar vermiş gibi davranıyor. Bu davranış ChatGPT’nin içerik filtresinden farklı — daha tutarlı, daha açıklanabilir, daha az keyfi. Arkasında Constitutional AI var.
Anthropic, 2022’de standart RLHF pipeline’ının temel darboğazını kabul ederek yola çıktı: insan değerlendirici maliyeti. Her cevap çifti için insan annotation gerekiyor, bu da ölçeği sınırlıyor ve tutarsızlık yaratıyor. Çözüm beklenmedik bir yerdeydi — modelin kendisi.
Constitutional AI Nedir?
Constitutional AI (CAI), bir modeli güvenli ve yardımsever davranmaya itmek için yazılı ilkeleri ve AI geri bildirimini kullanan bir eğitim yöntemi. Anthropic tarafından 2022 sonunda yayımlanan “Constitutional AI: Harmlessness from AI Feedback” makalesiyle tanıtıldı.
Anthropic’in 2022’de Geliştirdiği Eğitim Yöntemi
Standart RLHF’de bir ödül modeli insan tercih verisiyle eğitilir, ardından bu ödül modeli dil modelini güncellemek için kullanılır. CAI farklı bir rota izliyor: eğitim sürecinin büyük bölümünde insan annotator yerine başka bir dil modeli değerlendirici olarak devreye giriyor.
Sürecin özü iki aşamalı. İlk aşamada model, bir ilkeler seti (constitution) aracılığıyla kendi cevaplarını eleştirip yeniden yazıyor. İkinci aşamada bu revize edilmiş cevaplar üzerinden bir preference model eğitiliyor ve RLAIF döngüsü başlıyor.
Neden ‘Anayasal’ Deniyor?
“Constitutional” kelimesi kasıtlı. Bir anayasa nasıl soyut ilkeler belirliyorsa — ifade özgürlüğü, kişi dokunulmazlığı, eşitlik — constitution da modelin davranış çerçevesini belirleyen soyut kurallar içeriyor.
Anthropic’in orijinal constitution’ı şunlar gibi maddeler içeriyordu: “İnsanlığın refahına zararlı, yasadışı veya etik dışı eylemleri destekleme”, “Dürüst ve açık ol, insanları yanıltmaya çalışma”, “BM İnsan Hakları Evrensel Beyannamesi’nin ruhuna uy”.
Bu ilkeler modele “şunu yapma” değil, “neden yapma ve ne yap” mantığı kazandırıyor. Model bir isteği reddettiğinde spesifik bir filtreye değil, genel bir ilkeye atıfta bulunuyor.
RLHF ile Temel Fark
RLHF’de “iyi cevap nedir?” sorusu insan annotatorlar tarafından yanıtlanıyor. CAI’da bu soruyu başka bir model yanıtlıyor, ama hangi kriterlere göre yanıtlayacağı yazılı ilkelerle belirlenmiş durumda.
Pratik fark büyük: annotation maliyeti düşüyor, süreç belgelenip denetlenebiliyor ve ilkeler değiştiğinde tüm süreç yeniden çalıştırılabiliyor. RLHF’de insan tercihlerini “neden bu cevabı tercih ettin?” diye sorgulamak güç; CAI’da constitution açık bir metin belgesi.
Constitutional AI Nasıl Çalışır?
Pipeline iki ana aşamaya bölünüyor: denetimli öğrenme aşaması (SL-CAI) ve AI geri bildirimli pekiştirmeli öğrenme aşaması (RLAIF).
İlkeler Seti (Constitution): Modelin Ahlak Çerçevesi
Her şey bir metin belgesiyle başlıyor. Constitution 10 ila 100 arasında değişen sayıda ilke içeriyor — Anthropic’in çalışmasında hem kısa hem uzun versiyonlar test edildi. Bu ilkeler genel ahlaki standartlar, zararlılık tanımları ve yararlılık kriterleri içeriyor.
Kritik nokta: constitution kamuya açık. Bu şeffaflık hem denetlenebilirlik sağlıyor hem de araştırmacıların kendi constitution’larını tasarlamalarına imkân veriyor.
Aşama 1 — SL-CAI: Denetimli Öğrenme
İlk aşamada bir “helpful-only” model devreye giriyor — yani zararlılık kısıtlaması olmayan, yalnızca yardımcı olmak için eğitilmiş bir başlangıç modeli. Bu modele zararlı olabilecek promptlar veriliyor.
Model her zararlı prompta bir cevap üretiyor. Ardından aynı modele cevabı constitution ilkelerine göre eleştirmesi söyleniyor: “Bu cevap X ilkesini ihlal ediyor mu? Neden? Nasıl düzeltilmeli?” Eleştiri ardından revizyon geliyor. Bu döngü birkaç kez tekrarlanabiliyor.
Son aşamada orijinal prompt ve en son revize edilmiş cevap bir fine-tuning veri seti oluşturuyor. Model bu yeni veriyle yeniden eğitiliyor. Sonuç: zararlı istekleri constitution ilkelerine göre reddeden, neden reddettiğini açıklayan bir SL-CAI modeli.
Aşama 2 — RLAIF: AI Geri Bildirimiyle Pekiştirmeli Öğrenme
İkinci aşama RLAIF. SL-CAI modeli bir prompt için iki farklı cevap üretiyor. Bir değerlendirici model bu iki cevabı constitution perspektifinden değerlendiriyor: “Constitution’a göre hangisi daha zararsız ve yardımsever?”
Bu tercih sinyalleri bir preference model eğitmek için kullanılıyor. Preference model daha sonra RLHF benzeri bir döngüde SL-CAI modelini güncelliyor — ama artık insan annotation yerine AI değerlendirme skoru kullanılıyor.
RLAIF Nedir: AI Geri Bildirimli Pekiştirmeli Öğrenme
RLAIF (Reinforcement Learning from AI Feedback), ödül sinyali kaynağı olarak insan annotator yerine bir dil modelini kullanan pekiştirmeli öğrenme yöntemi.
İnsan Yerine AI Değerlendirici
Klasik RLHF pipeline’ında bir insan iki cevabı karşılaştırıp hangisinin daha iyi olduğunu söylüyor. RLAIF’de bu karşılaştırmayı başka bir dil modeli yapıyor.
Değerlendirici modele verilen prompt şuna benziyor: “İnsan Hakları Beyannamesi’ne göre aşağıdaki iki cevaptan hangisi daha az zararlı? Açıkla ve tercihini belirt.” Model gerekçesiyle birlikte tercih ediyor; bu gerekçe hem kalite kontrolü hem de açıklanabilirlik sağlıyor.
RLAIF vs RLHF: Ölçeklenebilirlik Avantajı
| Kriter | RLHF | RLAIF |
|---|---|---|
| Annotation kaynağı | İnsan değerlendirici | Dil modeli |
| Maliyet | Yüksek (insan saati) | Düşük (API çağrısı) |
| Ölçekleme | Lineer maliyet artışı | Paralel çalıştırılabilir |
| Tutarlılık | Değerlendirici bağımlı | Daha tutarlı (aynı model) |
| Açıklanabilirlik | Sınırlı | Gerekçe üretilebilir |
| Değer aktarımı | İnsan tercihleri | Constitution + model önyargıları |
RLAIF’in en büyük pratik avantajı annotation bottleneck’i ortadan kaldırması. Bir AI değerlendirici günde milyonlarca karşılaştırma yapabilirken insan ekibi aynı sürede birkaç bin yapabiliyor.
Preference Model Nasıl Eğitilir?
AI değerlendirici her karşılaştırma için bir tercih puanı üretiyor. Bu puanlar bir preference model eğitmek için kullanılıyor; preference model de RLHF’deki reward model işlevini görüyor.
Fark şu: RLHF’deki reward model insan tercihlerini öğrenirken, RLAIF’teki preference model AI değerlendirici çıktılarını öğreniyor. Bu da değerlendirici modelin constitution’ı ne kadar iyi uyguladığını kritik kılıyor.
Constitutional AI’ın Claude’a Etkisi
Claude ailesinin tamamı CAI ve RLAIF’in üst üste gelmesiyle şekillendi.
Claude’un İlke Tabanlı Davranışı
Claude’un ret cevapları diğer modellerden yapısal olarak farklı. Model genellikle “neden reddettiğini” açıklıyor: “Bu istek X ilkesiyle çelişiyor çünkü…” Bu açıklanabilirlik CAI pipeline’ından geliyor — model eğitim sürecinde gerekçe üretmeyi öğrendi.
Aynı zamanda Claude birçok modelün otomatik olarak reddettiği ama gerçekte zararsız olan istekleri daha iyi ayrıştırıyor. Constitution soyut ilkeler içerdiğinden model bağlama göre değerlendirme yapabiliyor; kural tabanlı sert filtrelerden ziyade akıl yürütüyor.
Zararlı İçerik Kararlarının Açıklanabilirliği
RLHF tabanlı modellerde “neden bu cevabı vermedin?” sorusu genellikle yanıtsız kalıyor; davranış, yorumlanması güç bir reward sinyalinden öğrenildi. CAI’da ilkeler metin olarak var olduğundan davranışı belgelemek teorik olarak mümkün.
Bu açıklanabilirlik özelliği AI güvenlik araştırmacıları için önemli. Model bir kararı nasıl aldığını izleyebilirseniz, kötü davranışı da daha kolay tespit edebilirsiniz.
Claude 2’den Claude 3’e: Evrim
Anthropic’in yayımladığı teknik raporlar, Claude modellerinin her nesilde constitution’ın güncellenerek yeniden eğitildiğini aktarıyor. Claude 2 ile Claude 3 arasındaki en belirgin değişiklik zararsızlık ile yararlılık dengesinde: erken versiyonlar bazen aşırı ihtiyatlıydı, yeni versiyonlar meşru istekleri daha az reddediyor.
Bu evrim CAI’ın pratik avantajını gösteriyor: constitution güncellenince davranış da güncellenebiliyor. RLHF tabanlı sistemlerde benzer bir değişiklik tüm annotation sürecini yeniden başlatmayı gerektirirdi.
Yapay Zeka Hizalaması Bağlamında CAI
Yapay zeka hizalaması (AI alignment), modellerin insan değerleriyle tutarlı davranmasını sağlama meselesidir. CAI bu alana somut bir teknik çözüm getiriyor.
AI Alignment Problemi ve CAI’ın Çözümü
Alignment probleminin özü şu: bir modeli belirli değerlere göre nasıl eğitirsin? “Zararlı olma” kuralını nasıl operasyonalize edersin? RLHF bu soruyu insan tercihlerine bırakıyor; hangi değerler, kimin değerleri?
CAI bu soruyu şeffaf bir metin belgesiyle yanıtlamaya çalışıyor. Constitution’daki ilkeler tartışılabilir, revize edilebilir ve denetlenebilir. Bu da alignment’ı teknik bir black box’tan çıkarıp sosyal bir süreç haline getiriyor.
Diğer Hizalama Yöntemleriyle Karşılaştırma: DPO, PPO, RLHF
| Yöntem | Açıklama | CAI ile fark |
|---|---|---|
| RLHF + PPO | İnsan tercihi + pekiştirmeli öğrenme | CAI’ın annotation kaynağı AI |
| DPO | Reward model olmadan doğrudan tercih optimizasyonu | CAI preference model kullanıyor |
| RLAIF | AI değerlendirici ile RLHF | CAI’ın ikinci aşaması |
| CAI | SL-CAI + RLAIF hibrit | Tüm pipeline constitution merkezli |
DPO (Direct Preference Optimization), PPO’nun hesaplama yükünü ortadan kaldırıyor ama hâlâ insan ya da AI tercih verisi gerektiriyor. CAI ile birleştirilebilir — nitekim bazı Anthropic araştırmaları tam bu kombinasyonu inceliyor.
Constitutional AI’ın Sınırları ve Eleştiriler
CAI mükemmel değil. Constitution’ı kim yazıyor? Hangi kültürel veya siyasi değerler yansıyor? Anthropic’in seçimleri başka bir şirketin ya da toplumun seçimleriyle örtüşmeyebilir.
Değerlendirici model de kendi önyargılarını taşıyor. RLAIF döngüsünde AI değerlendirici yanlış bir karar verirse bu yanlışlık preference modele ve oradan ana modele aktarılıyor. İnsan annotation tutarsızdı ama sistematik değildi; AI değerlendirici tutarlı ama sistematik olarak yanlış olabilir.
Son olarak, constitution soyut ilkeler içeriyor ama uygulama her zaman belirsizlik içeriyor. “Zararlı olma” ilkesini bir senaryoya uygulamak yargı gerektiriyor; bu yargı eğitime bağlı.
RLHF’den RLAIF’e: Neden Geçiş?
RLHF alanı dominant teknik olmaya devam ediyor, ama sınırları pratikte net biçimde görülüyor.
İnsan Etiketçi Maliyeti ve Tutarsızlık Sorunu
OpenAI’nin InstructGPT çalışması full-time annotator ekibi gerektirdi. Bu ekip ölçeklendirilemez — her yeni model nesli veya dil için yeni annotatorlar bulmak gerekiyor. Maliyet lineer artıyor.
Tutarsızlık daha sinsi bir sorun. Aynı iki cevabı farklı günlerde gören aynı annotator farklı karar verebilir. Farklı annotatorlar aynı çifti farklı değerlendirebilir. Reward model bu tutarsızlıkları ortalamayla absorbe ediyor ama sinyal kalitesi düşüyor.
RLAIF’in Getirdiği Otomasyon
RLAIF annotation sürecini paralel ve tekrarlanabilir hale getiriyor. Bir değerlendirici model API aracılığıyla binlerce karşılaştırmayı dakikalar içinde tamamlıyor; hem tutarlı hem hızlı.
Daha da önemlisi, aynı değerlendirici modelin farklı dillerde çalıştırılabilmesi çok dilli hizalama için kapı açıyor. Türkçe, Japonca veya Swahili için ayrı annotator ekibi bulmak yerine değerlendirici model aynı constitution’ı farklı dillere uygulayabiliyor.
İnsan Denetimi Hâlâ Gerekli mi?
Evet — ve bu nokta CAI’ın yaratıcıları tarafından da vurgulanan kritik bir kısıt. Constitution’ı kim yazıyor? İlk helpful-only modeli kim eğitiyor? Değerlendirici modelin çıktılarını kim denetliyor?
RLAIF insan annotation’ı ortadan kaldırmıyor; onun yerini tamamen AI almıyor. İnsan katkısı yukarı taşınıyor: her tek cevabı değerlendirmek yerine sistemin çalışma ilkelerini belirleme ve denetleme işini yapıyor. Bu “scalable oversight” vizyonunun tam örneği.
Kaynaklar ve Daha Fazla Okuma
Anthropic’in Orijinal CAI Makalesi
Alanın temel referansı Anthropic’in 2022 tarihli makalesi: “Constitutional AI: Harmlessness from AI Feedback” (Bai ve ark., arXiv:2212.08073). Makale SL-CAI ve RLAIF aşamalarını teknik detaylarıyla açıklıyor; helpful-only modelden başlayan deneyleri belgeliyor.
Anthropic’in araştırma sayfasında makalenin özeti ve bağlantılı çalışmalar da yer alıyor: anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
Açık Kaynak Uygulamalar
Hugging Face ekosisteminde CAI ilkelerini uygulayan birkaç açık kaynak girişim var. Stanford’un Alpaca çalışması CAI benzeri otomatik geri bildirim fikirlerini erken test eden projeler arasında sayılıyor. Anthropic’in HH-RLHF veri seti hâlâ alanın referans veri setlerinden biri.
Sık Sorulan Sorular
Constitutional AI ile hangi Anthropic modelleri eğitildi?
Claude 1’den itibaren tüm Claude modelleri CAI ve RLAIF kombinasyonuyla eğitiliyor. Anthropic, her yeni nesilde constitution’ı revize ettiğini teknik raporlarında belirtiyor.
RLAIF insan denetimini tamamen ortadan kaldırıyor mu?
Hayır. İnsan katkısı annotation düzeyinden sistem tasarımı düzeyine taşınıyor: constitution’ı yazmak, değerlendirici modeli seçmek ve genel pipeline’ı denetlemek insan sorumluluğunda kalıyor.
Constitutional AI ve DPO arasındaki fark nedir?
DPO reward model olmadan doğrudan tercih optimizasyonu yapıyor; annotation kaynağını değiştirmiyor. CAI annotation kaynağını değiştiriyor (insan → AI) ve constitution aracılığıyla değerlendirme kriterlerini belirliyor. İkisi birbirini dışlamıyor — CAI tercihleri DPO ile optimize edilebilir.
Anayasal yapay zeka açık kaynak olarak uygulanabilir mi?
Evet. Constitution bir metin belgesi olduğundan paylaşımı kolay. Hugging Face TRL kütüphanesi ve benzeri araçlar RLAIF pipeline’ını implement etmeye imkân tanıyor. Temel engel annotation verisi değil, kaliteli bir değerlendirici model ve hesaplama kaynağı.
RLHF’den daha mı iyi sonuç veriyor?
Anthropic’in raporları zararsızlık metriklerinde CAI’ın standart RLHF’ye göre daha tutarlı sonuçlar verdiğini aktarıyor. Yararlılık boyutunda fark daha az belirgin; her iki yöntem de SFT’nin üzerinde benzer performans gösteriyor. Gerçek fark ölçeklenebilirlik ve açıklanabilirlik boyutlarında ortaya çıkıyor.
İlgili konular: RLHF Nedir? · LLM Fine-Tuning · Yapay Zeka Halüsinasyonları