RLHF (Reinforcement Learning from Human Feedback) (İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme)

RLHF, büyük dil modellerinin (LLM) insan değerleri, beklentileri ve etik kurallarıyla uyumlu (alignment) hale getirilmesi için kullanılan en kritik eğitim tekniğidir.

RLHF, büyük dil modellerinin (LLM) insan değerleri, beklentileri ve etik kurallarıyla uyumlu (alignment) hale getirilmesi için kullanılan en kritik eğitim tekniğidir. İnterneti okuyarak her şeyi öğrenen vahşi bir modeli alıp, ona "insanların ne tür cevaplardan hoşlandığını ve hangilerini tehlikeli bulduğunu" öğreterek yardımsever ve güvenli bir asistana (örn: ChatGPT) dönüştüren süreçtir.

thumbs_up_down Nasıl Çalışır?

Süreç 3 adımdan oluşur: 1) İnsan etiketleyiciler (human labelers) modele sorular sorar ve modelin verdiği 3-4 farklı cevabı kalitesine göre (1'den 4'e kadar) sıralar. 2) Bu sıralama verileri kullanılarak ayrı bir 'Ödül Modeli' (Reward Model) eğitilir. Bu model, tıpkı bir insan gibi hangi cevabın iyi hangisinin kötü olduğunu tahmin etmeyi öğrenir. 3) Son olarak, ana dil modeli (örn: GPT-3) bu Ödül Modelinin verdiği puanlara göre Pekiştirmeli Öğrenme (PPO algoritması) ile güncellenir ve yüksek puan alacak cevaplar üretmeye başlar.

RLHF Neden Hayatidir?

healing Zehirlilik (Toxicity) Filtresi

İnternetteki ırkçı, cinsiyetçi ve tehlikeli içeriklerle eğitilen modelin, bu davranışları son kullanıcıya yansıtmasını engeller.

forum Kibarlık ve Üslup

Bir yapay zekanın sadece doğru cevap vermesini değil, aynı zamanda bunu yapıcı, özür dileyebilen ve nazik bir tonda yapmasını sağlar.

quiz Sıkça Sorulan Sorular (FAQ)

  • check_circle RLAIF Nedir?: RLHF çok pahalı ve yavaştır çünkü binlerce insan çalıştırmayı gerektirir. RLAIF (Reinforcement Learning from AI Feedback), insanların puanlama yapması yerine GPT-4 gibi süper zeki bir modelin puanlama yapmasını sağlayarak diğer modelleri otomatik hizalama yöntemidir.