tag ConstitutionalAI

Bu sayfada ConstitutionalAI etiketi ile işaretlenmiş 4 yapay zeka kavramını bulabilirsiniz.

Constitutional AI (CAI — Anayasal Yapay Zeka), Anthropic tarafından 2022 yılında geliştirilen ve yapay zeka modellerini belirli bir etik ve değer "anayasasına" göre hizalayan bir tekniktir. Geleneksel RLHF'nin yararlılık ve zararsızlık değerlendirmesi için insanlar yerine büyük ölçüde yapay zeka geri bildirimini (AI feedback) kullanan Constitutional AI, ölçeklenebilir hizalama arayışındaki önemli bir adım olarak görülmektedir. Constitutional AI iki aşamada çalışır. SL-CAI (Supervised Learning — CAI): Modele zararlı veya sorunlu yanıt ürettirilir, ardından yazılı bir anayasadaki ilkeler listesi (örn. "Faydalı, zararsız ve dürüst ol", "İnsan haklarına saygı göster") aracılığıyla model kendi yanıtını eleştirir ve düzeltir. Bu eleştiri-revizyon döngüsü birkaç tur tekrarlanır ve üretilen yüksek kaliteli yanıtlar denetimli öğrenme için kullanılır. RL-CAI (Reinforcement Learning — CAI): RLHF'deki insan tercih sıralamasının yerine bir yapay zeka hakem modeli (AI preference model) kullanılır; hakem, anayasadaki ilkelere göre hangi yanıtın daha iyi olduğuna karar verir. Bu tercih verileriyle eğitilen ödül modeli, PPO yerine direkt tercih optimizasyonuyla politikayı günceller. Constitutional AI; insan etiketleyici gereksinimini azaltırken zararlılık değerlendirmesini şeffaf hale getirir ve denetlenebilir bir değer kümesine dayandırır. Claude modeli serisi bu teknikle eğitilmiştir.

business

Anthropic (Şirket)

Anthropic, 2021 yılında Dario Amodei ve Daniela Amodei liderliğinde eski OpenAI çalışanları tarafından kurulan, güvenli ve yorumlanabilir yapay zeka sistemleri geliştirmeye odaklanan bir AI güvenlik şirketidir. Claude büyük dil modeli serisinin ve Model Context Protocol'ün (MCP) geliştiricisidir.

arrow_forward science

Anthropic (Anthropic)

Anthropic, 2021 yılında Dario Amodei ve Daniela Amodei önderliğinde, büyük dil modellerinin güvenliğini ve yorumlanabilirliğini ön plana alan bir yapay zeka güvenlik şirketi olarak kurulmuş Amerikalı bir yapay zeka araştırma kuruluşudur. Şirket, OpenAI'dan ayrılan araştırmacılar tarafından kurulmuş; temel felsefesi "güvenli, yararlı ve dürüst" yapay zeka sistemleri geliştirmektir. Anthropik'in amiral gemisi ürünü Claude dil modelidir. Claude, Anayasal YZ (Constitutional AI — CAI) adı verilen özgün bir eğitim yöntemiyle geliştirilmiştir; bu yöntem, modelin yardımcı, zararsız ve dürüst olmasını sağlayan ilkelere dayalı bir öz-denetim mekanizması içerir. 2024-2026 yılları arasında piyasaya sürülen Claude 3, Claude 3.5, Claude 3.7 ve Claude Opus 4 serileri; karmaşık akıl yürütme, kod yazma ve çok adımlı görev çözme yetenekleriyle öne çıkan modellerdir. Anthropik ayrıca Model Context Protocol (MCP) standartını açık kaynak olarak yayınlamıştır; bu protokol yapay zeka modellerini harici araçlara ve veri kaynaklarına standart bir arayüzle bağlayan bir spesifikasyondur. Şirket, yorumlanabilirlik araştırmalarıyla dikkat çekmektedir; 'dikkat kafaları' analizi, 'özellik süperpozisyon' çalışmaları ve mekanik yorumlanabilirlik alanındaki yayınları bu çalışmaların öne çıkan örnekleridir.

arrow_forward account_balance

Constitutional AI (Anayasal Yapay Zeka)

arrow_forward balance

Value Alignment (Değer Hizalaması)

Değer Hizalaması (Value Alignment), yapay zeka sistemlerinin hedeflerinin, davranışlarının ve karar alma mekanizmalarının insan değerleri, tercihleri ve niyetleriyle uyumlu olmasını sağlama sorunudur. Yapay zeka güvenliği araştırmalarının merkezinde yer alan bu kavram, özellikle ileri düzey AI sistemleri geliştikçe kritik bir önem kazanmaktadır. Bu sorunun temel zorluğu, insan değerlerinin karmaşık, çoğul ve çoğu zaman birbiriyle çelişen bir yapıda olmasından kaynaklanır. İnsanlar bile kendi değerlerini tam olarak ifade etmekte güçlük çekerken, bir yapay zeka sisteminin bu değerleri doğru biçimde öğrenmesi ve uygulaması son derece zordur. Değer hizalaması sorunu birkaç alt probleme ayrılır. Spesifikasyon problemi, AI sistemine doğru hedeflerin nasıl tanımlanacağını ele alır. İç hizalama (inner alignment), sistemin eğitim sırasında optimize ettiği hedefle gerçek dünya davranışı arasındaki uyumu ifade eder. Dış hizalama (outer alignment) ise belirtilen hedefin gerçek insan değerleriyle ne kadar örtüştüğünü sorgular. Goodhart Yasası bu bağlamda kritik bir tehlikeye işaret eder: Bir ölçüm hedef haline geldiğinde, iyi bir ölçüm olmaktan çıkar. Yani AI sistemi, insanların gerçekten istediği şeyi değil, belirtilen metriği optimize etmeye başlayabilir — bu olguya ödül hackleme (reward hacking) denir. Değer hizalaması için geliştirilen başlıca teknikler arasında RLHF (İnsan Geri Bildiriminden Pekiştirmeli Öğrenme), Constitutional AI ve tartışma (debate) yöntemi yer almaktadır. Bu teknikler, insan denetimi ve geri bildirim mekanizmaları aracılığıyla AI davranışını insan tercihleriyle uyumlu kılmayı hedefler. Stuart Russell, Nick Bostrom ve Paul Christiano gibi araştırmacılar bu alandaki temel çalışmaları yürütmüştür. Özellikle genel yapay zeka (AGI) senaryolarında hizalanmamış sistemlerin insanlık için ciddi riskler taşıyabileceği öngörülmektedir. Bu nedenle değer hizalaması, modern yapay zeka güvenliği araştırmalarının ayrılmaz bir parçasıdır.

arrow_forward