PRM (PRM (Süreç Ödül Modeli))

Adım adım akıl yürütme sürecindeki her aşamayı ayrı ayrı puanlayan ödül modeli.

Süreç Ödül Modeli (Process Reward Model, PRM), bir yapay zekanın mantık yürütme sürecindeki her adımı ayrı ayrı değerlendiren ödül modelidir. Klasik Sonuç Ödül Modeli (ORM) yalnızca nihai cevabın doğruluğuna odaklanırken, PRM ara adımların kalitesini de ölçer; bu sayede model, doğru sonuca yanlış akıl yürütmeyle ulaşmak yerine gerçekten sağlam bir düşünce zinciri kurmayı öğrenir. PRM'ler özellikle matematik ve kodlama gibi çok adımlı görevlerde RLHF ve test-time hesaplama (Best-of-N, MCTS gibi arama stratejileri) ile birleştirildiğinde güçlü sonuçlar üretmektedir. Daha detaylı: /blog/process-reward-model-prm-nedir-adim-bazli-akil-yurutme

ORM ile Fark

**ORM (Outcome Reward Model):** Yalnızca nihai yanıtın doğru olup olmadığına bakar. Yanlış adımlardan geçerek şans eseri doğru sonuca ulaşan bir zinciri ödüllendirebildiği için sezgisel olarak güvenilir değildir. **PRM (Process Reward Model):** Her akıl yürütme adımına bir puan verir. Hatalı bir adım tespit edilirse, doğru sonuca rağmen düşük ödül alınır. Bu yaklaşım, modelin gerçekten mantıklı bir süreç izlemesini teşvik eder.