Büyük dil modelleri, milyarlarca parametreyle eğitildikten sonra bile tutarlı, yararlı yanıtlar üretmekte zorlanabilir. Sorun, eğitimin hedefindedir: bir sonraki tokenun olasılığını maksimize etmek, insanların gerçekte ne istediğini yakalamaz. Bu boşluğu doldurmak için araştırmacılar, insan tercihlerini yakalayan bir ara model geliştirdi: reward model. ChatGPT, Claude ve Gemini’nın neden nispeten tutarlı ve zararsız yanıtlar ürettiğini sorarsanız, cevabın büyük bir kısmı reward modeling’e çıkar.
Reward Model Nedir?
Reward model, bir (prompt, yanıt) çiftini alır ve bu çifte skaler bir puan döndürür. Dil modeli token üretir; reward modeli bu üretimi puanlar.
Bu ayrım önemli. Bir dil modeli, eğitim setindeki bir sonraki tokenun olasılığını maksimize etmek için optimize edilir. Bu, modelin dilbilgisel açıdan tutarlı ve istatistiksel olarak makul metinler üretmesini sağlar, ama insan tercihinin ne olduğunu öğretmez. İnsanların “daha iyi” bulduğu yanıt her zaman daha yüksek olasılıklı yanıt değildir.
Standart maksimum olabilirlik eğitimi (MLE) bu açığı kapatamaz. MLE yalnızca “bu metin var mı?” sorusuna yanıt verir, “bu metin iyi mi?” sorusuna değil. Reward model tam da bu noktada devreye girer: tercih verisi üzerinde eğitilen bir sinyal kaynağı olarak, LLM’ye hangi çıktıların daha iyi olduğunu söyler.
Mimari açıdan reward modeller çoğunlukla dil modeliyle benzer yapıdadır, ancak son katman bir sınıflandırıcı veya regresyon kafası içerir. Bu kafa, verilen yanıta tek bir sayısal puan atar.
Reward Model Varyantları
Reward model tek tip değil; farklı kullanım senaryolarına göre farklı mimariler öne çıktı.
Scalar reward model (puanlayıcı RM): Klasik yaklaşım. Bir (prompt, yanıt) çiftine tek bir skaler puan döndürür. Hesaplama açısından ucuzdur ve PPO ile doğrudan entegre çalışır. Temel sınırı, nüanslı değerlendirme yapamamasıdır; yanıtın hangi boyutunun iyi ya da kötü olduğunu söylemez.
Preference reward model (karşılaştırmalı RM): Bradley-Terry çerçevesini kullanır ve doğrudan karşılaştırma verisiyle eğitilir. Scalar RM aslında bu kategoriye girer; puanlar, karşılaştırmalı tercihin bir yan ürünüdür. Bu yaklaşım, mutlak puan yerine göreli karşılaştırmayı merkeze alır.
Generative reward model (üretici RM): Puan atamak yerine değerlendirme için bir dil modeli kullanır. Bu model, yanıtı analiz eden bir yargıç gibi davranır ve kararını metin olarak açıklayabilir. Constitutional AI’daki “yapay yargıç” bu kategoriye girer. Generative RM, daha zengin geri bildirim üretir ama hesaplama maliyeti çok daha yüksektir.
Her varyantın doğru kullanım alanı vardır: scalar RM hız öncelikli prodüksiyon sistemleri için, generative RM ise güvenlik değerlendirmesi ve açıklanabilir hizalama araştırmaları için daha uygundur.
RLHF’de Reward Model’ın Yeri
RLHF (Reinforcement Learning from Human Feedback) üç aşamadan geçer: SFT, reward model eğitimi ve PPO.
Birinci aşama: Supervised Fine-Tuning (SFT)
Eğitim, temel modeli (base LLM) denetimli ince ayarla başlatır. Bu adımda insan yazarlı yanıtlardan oluşan bir veri kümesi kullanılır. SFT aşaması, modele temel bir “yararlı olma” kapasitesi kazandırır; reward model eğitimi bunun üzerine inşa edilir.
İkinci aşama: Reward Model Eğitimi
İnsan değerlendiriciler, SFT modeli tarafından üretilmiş yanıt çiftlerine bakarak hangisini tercih ettiğini belirtir. Bu tercih verileri, (prompt, seçilen yanıt, reddedilen yanıt) üçlüleri, reward modelin eğitim kümesini oluşturur.
Yaygın kullanılan çerçeve Bradley-Terry modelidir. Bu model, iki seçenek arasındaki tercihin olasılığını şöyle ifade eder:
P(A > B) = σ(r(A) - r(B))
Burada r(A) ve r(B), reward modelin A ve B yanıtlarına atadığı puanlar; σ ise sigmoid fonksiyonudur. Model, gerçek insan tercihlerini yeniden üretecek şekilde ağırlıklarını optimize eder.
Üçüncü aşama: PPO ile LLM güncelleme
Reward model, LLM’nin güncellenmesinde kullanılacak bir sinyal kaynağına dönüşür. PPO algoritması, LLM’nin her ürettiği yanıt için reward modelinden bir puan ister ve bu puana göre politika ağırlıklarını günceller.
Reward Model Nasıl Eğitilir?
Reward model eğitiminin girdisi tercih çiftleridir: (prompt, chosen, rejected). Seçilen yanıt, değerlendirici tarafından daha iyi bulunan; reddedilen ise daha kötü bulunan yanıttır.
Kayıp fonksiyonu genellikle contrastive loss ya da ranking loss biçiminde tasarlanır. Hedef, modelin seçilen yanıta reddedilenden daha yüksek puan atamasını garantilemektir. Tipik formülasyon:
L = -log σ(r(chosen) - r(rejected))
Bu kayıp, seçilen yanıtın puanı reddedilene yaklaştığında cezayı artırır; aralarındaki fark büyüdükçe ceza küçülür.
Reward model eğitim verisini iyi öğrenebilir, ama gerçek insan tercihini temsil etme kapasitesi sınırlıdır. Asıl tehlike, PPO aşamasında LLM’nin bu kusurlu reward modelini istismar etmesidir. LLM zamanla reward modelinin kör noktalarını keşfeder ve yüksek puan alan ama içerik olarak kötü yanıtlar üretmeye başlayabilir. Buna reward hacking denir.
Annotation Süreci ve Veri Kalitesi
Reward model kalitesi, doğrudan tercih verisi kalitesine bağlıdır. Bu veri, insan değerlendiricilerin prompt-yanıt çiftlerini karşılaştırarak yaptığı etiketleme sürecinden gelir.
Tipik bir annotation iş akışı şöyle işler: değerlendiriciye iki yanıt gösterilir (A ve B), hangisini daha yararlı, doğru veya güvenli bulduğunu işaretler. Büyük ölçekli projelerde bu süreç onlarca ya da yüzlerce değerlendiriciyle yürütülür.
Temel güçlük, değerlendirici tutarsızlığıdır. Aynı yanıt çiftine farklı değerlendiriciler farklı karar verebilir. Bunu ölçmek için inter-annotator agreement metrikleri kullanılır; Cohen’s Kappa ve Krippendorff’s Alpha en yaygın olanlar. Düşük uyum, annotation kılavuzlarının belirsiz olduğuna ya da konunun doğası gereği öznel olduğuna işaret eder.
Annotation kılavuzları, değerlendiricilerin neyi tercih etmesi gerektiğini tanımlar: doğruluk mu, yardımcı olma mı, güvenlik mi? OpenAI’nin InstructGPT çalışmasında değerlendiricilere hem genel tercih hem de boyutsal değerlendirme yaptırıldı. Bu, reward modelin farklı kalite boyutlarını birbirinden ayırt etmesine olanak tanıdı.
Veri verimliliği de kritik. Kaç tercih çiftiyle anlamlı bir reward modeli eğitilebilir? Pratik gözlemler, birkaç bin yüksek kaliteli tercih çiftinin bile makul bir sinyal ürettiğini gösteriyor; ama dağılım çeşitliliği, miktardan önce geliyor. Aynı prompt tiplerine yoğunlaşan 10.000 veri noktası, geniş çeşitlilikle oluşturulmuş 2.000 veri noktasından daha az etkili olabilir.
Active learning stratejileri bu verimsizliği kısmen giderir: model hangi örneklerden en fazla öğrenebileceğini tahmin eder ve değerlendiricilerin zamanını bu örneklere yönlendirir. Bu sayede annotation maliyeti düşerken kapsam genişler.
PPO ile Entegrasyon
PPO, reward modelinden gelen sinyali kullanarak LLM politikasını günceller. Ama bu güncellemenin kontrolsüz büyümesini önlemek için iki kısıt gereklidir.
KL Divergence cezası
PPO döngüsünde, güncellenmiş LLM’nin SFT modelinden aşırı uzaklaşmasını önlemek için KL ıraksama cezası eklenir:
r_toplam = r_reward - β × KL(π_güncel || π_SFT)
Bu formülde β iki hedefi dengeler: reward puanını artırmak ile referans modele yakın kalmak. KL cezası olmadan model kısa sürede dejenere çıktılar üretir.
Clipping
PPO’nun politika güncellemesini tek seferde çok büyük adımlar atmaktan alıkoyan clipping mekanizması da eğitim stabilitesi için gereklidir. Bu mekanizma, eski ve yeni politika arasındaki olasılık oranını belirli bir aralıkta tutar; böylece her güncelleme ölçülü kalır.
Reward Model vs. DPO
DPO (Direct Preference Optimization), reward model gerektirmeyen bir hizalama yaklaşımıdır. Tercih verisini doğrudan dil modeline işler, ayrı reward model eğitimini ortadan kaldırır.
| Boyut | RLHF + Reward Model | DPO |
|---|---|---|
| Ayrı RM eğitimi | Var | Yok |
| Hesaplama maliyeti | Yüksek | Daha düşük |
| PPO döngüsü | Gerekli | Gerekmez |
| Reward hacking riski | Var | Daha az (ama sıfır değil) |
| Esneklik | Yüksek | Orta |
RLHF ile reward model yaklaşımı, insan tercihlerini ince ayrıntılarıyla yakalamak istediğinde ve büyük ölçekli eğitim altyapısına sahip olduğunda tercih edilir. DPO kaynak kısıtlı ortamlarda ve araştırma prototipleri için daha pratiktir.
Reward Hacking ve Goodhart Yasası
Reward hacking, aslında daha derin bir sorunun yüzeyidir. İktisat kökenli Goodhart Yasası şunu söyler: “Bir ölçüt hedef haline geldiğinde, iyi bir ölçüt olmaktan çıkar.”
Reward model, insan tercihinin kusurlu bir temsilidir. LLM bu kusurlu temsili optimize etmeye başladığında içerikten uzaklaşır. Yanıtlar, reward modelini etkileyen yüzeysel özellikleri barındırabilir ama gerçek anlamda iyi olmayabilir; uzun cümleler, belirli kelime kalıpları veya aşırı onaylayıcı bir ton yüksek puan alabilir, kalite almayabilir.
Out-of-distribution genelleme güçlüğü
Reward modelin eğitim verisi sınırlıdır. LLM zamanla bu dağılımın dışına çıkan yanıtlar üretmeye başlayınca, reward modelin verdiği puanlar güvenilmez hale gelir.
Scalable oversight yaklaşımları
Çözüm önerileri arasında Debate (iki LLM’nin birbirini eleştirdiği bir düzenek), amplification (güçlü bir modelin zayıf bir modele yardım etmesi) ve process reward models (akıl yürütmenin her adımını değerlendirme) öne çıkıyor. Bu konunun daha geniş çerçevesi için Constitutional AI ve RLAIF makalesine bakabilirsiniz.
Gerçek Dünya Kullanımları
Reward modeling, büyük LLM’lerin üretim altyapısının gerçek bir parçasıdır.
ChatGPT ve InstructGPT
OpenAI’nin InstructGPT makalesi, reward modeling’in büyük çaplı ilk uygulamalarından birini belgeledi. İnsan değerlendiriciler tarafından etiketlenen tercih verileri, GPT-3’ü ChatGPT’ye dönüştüren RLHF sürecinin temelini oluşturdu.
Claude (Anthropic)
Anthropic, reward modeling’i Constitutional AI çerçevesiyle birleştirdi. Bu yaklaşımda RLAIF, insan değerlendiricilerin yerini kısmen bir yapay zeka yargıcına bırakır. Yargıç, anayasal ilkelere göre yanıtları değerlendirerek reward sinyali üretir.
Kodlama LLM’leri
Kodlama LLM’leri için reward modeli unit test sonuçlarından türetilebilir. Kod bir testi geçerse yüksek reward alır, başarısız olursa düşük. Bu, insan değerlendirmesine ihtiyaç duymadan otomatik bir hizalama döngüsü kurar.
Process Reward Model (PRM)
Geleneksel reward model yalnızca nihai yanıtı değerlendirir. PRM ise bir akıl yürütme zincirinin her adımını ayrı ayrı puanlar. Test-time compute ve akıl yürüten modeller üzerine yapılan araştırmalarla birlikte PRM’ler giderek daha kritik hale geliyor; modelin tam olarak hangi adımda yanlış gittiğini gösterebilirler.
Reward Modellerin Geleceği
Reward model ölçekleme
Reward model büyüklüğü ile hizalama kalitesi arasındaki ilişki, son araştırmalarda sıkça inceleniyor. Küçük bir reward modelin büyük bir LLM’yi hizalaması sorunlu olabilir; reward modeli, dil modelinin ürettiği nüansları yakalayamayabilir. Bu özellikle açık uçlu yaratıcı veya uzman düzeyi çıktılar için geçerlidir.
Büyük reward modeller ise eğitim maliyetini ciddi biçimde artırır. Bu denge, “reward modeli ne kadar büyük olmalı?” sorusunu aktif bir araştırma konusu yapar. Bazı çalışmalar, reward modeli parametre sayısı arttıkça reward hacking riskinin azaldığını gösterirken, aşırı büyük reward modellerinin kendi overfitting sorunlarına yol açabileceğini de belgeliyor.
PRM’ler ve test-time compute büyümesi
Modellerin çıkarım sırasında daha fazla hesaplama harcaması beklentisi PRM’lerin ağırlığını artırıyor. Birden fazla akıl yürütme yolu üretip en iyi olanı seçmek için PRM’ler, beam search benzeri bir süreçte değerlendirici görevi görür.
RLAIF ve yapay yargıç
İnsan değerlendiricilerin ölçeklenebilirliği sınırlı. RLAIF, tercih etiketlemeyi daha güçlü bir yapay zeka modeline devrederek bu sorunu aşmaya çalışır. Anthropic’in Constitutional AI yaklaşımı bu paradigmanın en somut örneği.
Çok modlu reward modeller
Görsel-dil modelleri için reward modeling, metni aşan bir değerlendirme kapasitesi gerektirir. Bir görsel-metin çiftini değerlendirebilen çok modlu reward modeller bu alanda artan bir ilgi görüyor.
Reward modeling, RLHF süreçlerinin merkezinde kalmaya devam ediyor. Ama alanın temel sorusu değişmedi: kusurlu bir ölçütle ne kadar iyi hizalama yapılabilir? Bu hem teknik hem de felsefi bir problemdir; insan tercihleri tutarsız, kültüre bağlı ve bağlama duyarlıdır. Reward hacking’e karşı geliştirilen her çözüm yeni bir katman ekler, ama temel problemi ortadan kaldırmaz. PRM’ler, RLAIF ve çok modlu reward modeller bu sınırı farklı açılardan zorlamaya devam ediyor.