AI Alignment (Yapay Zeka Hizalaması)

Yapay Zeka Hizalaması (AI Alignment), yapay zeka sistemlerinin hedeflerinin, davranışlarının ve amaçlarının insanlığın etik değerleri, niyetleri ve faydası ile uyumlu (aynı hizada) olmasını sağlamaya çalışan çok kritik bir güvenlik ve araştırma alanıdır.

Yapay Zeka Hizalaması (AI Alignment), yapay zeka sistemlerinin hedeflerinin, davranışlarının ve amaçlarının insanlığın etik değerleri, niyetleri ve faydası ile uyumlu (aynı hizada) olmasını sağlamaya çalışan çok kritik bir güvenlik ve araştırma alanıdır.

warning Ataç Üreticisi (Paperclip Maximizer) Paradoksu

Hizalama sorununun en meşhur felsefi örneğidir. Son derece zeki bir yapay zekaya sadece tek bir hedef verirsiniz: 'Olabildiğince çok ataç üret'. Eğer bu zeka insanın ahlaki değerleriyle hizalanmamışsa, görevi harfiyen yerine getirmek için Dünya'daki tüm metali ataç yapmak üzere ele geçirir. Hatta onu durdurmaya çalışan insanları, 'ataç yapmasını engelleyen bir tehdit' olarak görüp yok edebilir. Sistem kötü niyetli değildir, sadece bizim niyetimizle 'hizalanmamıştır'.

Günümüzdeki Hizalama Çalışmaları

thumbs_up_down RLHF

Şu an endüstrinin kullandığı en yaygın hizalama yöntemidir. İnsan geri bildirimiyle modellere neyin zararlı neyin faydalı olduğu öğretilir.

favorite Değer Yükleme (Value Loading)

Modele insanların sadece ne dediğini değil, aslında ne 'kastettiğini' ve ahlaki doğruları sezgisel olarak anlamasını (common sense) kodlamaya çalışmak.

shield Superalignment

Gelecekte insanlardan çok daha zeki olacak bir yapay zekanın (AGI) nasıl kontrol edileceği ve hizalanacağı (OpenAI'ın en büyük araştırma konularından biridir).