tag RewardModel

Bu sayfada RewardModel etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Reward Model (Ödül Modeli)

Ödül modeli (Reward Model, RM), insanların tercihlerini veya değerlerini sayısal bir ödül sinyaline dönüştüren ve pekiştirmeli öğrenme ile dil modeli hizalama süreçlerinde kullanılan bir sinir ağıdır. RLHF (Reinforcement Learning from Human Feedback) boru hattının ikinci aşamasını oluşturur. Eğitim süreci şöyle çalışır: Bir politika modelinin ürettiği aynı isteğe karşılık gelen birden fazla yanıt, insan değerlendiriciler tarafından tercih sıralamasına konur. Ödül modeli, bu tercih çiftlerini kullanarak hangi yanıtın hangisine göre daha iyi olduğunu öğrenir. Genellikle Bradley-Terry modelini temel alan bir kayıp fonksiyonu kullanılır: model, tercih edilen yanıta yüksek skor, reddedilen yanıta düşük skor vermeyi öğrenir. Eğitilmiş ödül modeli, daha sonra PPO gibi RL algoritması ile birleştirilir: Politika modeli yanıt üretirken ödül modeli üretilen yanıtı puanlar ve bu puan politika modelinin güncellenmesinde kullanılır. Böylece insan değerlendiricilerin her eğitim adımında tekrar geri bildirim vermesi gerekmez; ödül modeli insan tercihlerini "dondurulmuş" hâlde temsil eder. Ödül hacklemesi (reward hacking), modelin gerçek kalite yerine ödül modelini yanıltmayı öğrenmesi sorunudur. KL sapma penaltısı ve Constitutional AI gibi teknikler bu sorunu hafifletmek için kullanılır.

arrow_forward