thumbs_up_down Nasıl Çalışır?
Süreç 3 adımdan oluşur: 1) İnsan etiketleyiciler (human labelers) modele sorular sorar ve modelin verdiği 3-4 farklı cevabı kalitesine göre (1'den 4'e kadar) sıralar. 2) Bu sıralama verileri kullanılarak ayrı bir 'Ödül Modeli' (Reward Model) eğitilir. Bu model, tıpkı bir insan gibi hangi cevabın iyi hangisinin kötü olduğunu tahmin etmeyi öğrenir. 3) Son olarak, ana dil modeli (örn: GPT-3) bu Ödül Modelinin verdiği puanlara göre Pekiştirmeli Öğrenme (PPO algoritması) ile güncellenir ve yüksek puan alacak cevaplar üretmeye başlar.
RLHF Neden Hayatidir?
healing Zehirlilik (Toxicity) Filtresi
İnternetteki ırkçı, cinsiyetçi ve tehlikeli içeriklerle eğitilen modelin, bu davranışları son kullanıcıya yansıtmasını engeller.
forum Kibarlık ve Üslup
Bir yapay zekanın sadece doğru cevap vermesini değil, aynı zamanda bunu yapıcı, özür dileyebilen ve nazik bir tonda yapmasını sağlar.
quiz Sıkça Sorulan Sorular (FAQ)
- check_circle RLAIF Nedir?: RLHF çok pahalı ve yavaştır çünkü binlerce insan çalıştırmayı gerektirir. RLAIF (Reinforcement Learning from AI Feedback), insanların puanlama yapması yerine GPT-4 gibi süper zeki bir modelin puanlama yapmasını sağlayarak diğer modelleri otomatik hizalama yöntemidir.