ORM ile Fark
**ORM (Outcome Reward Model):** Yalnızca nihai yanıtın doğru olup olmadığına bakar. Yanlış adımlardan geçerek şans eseri doğru sonuca ulaşan bir zinciri ödüllendirebildiği için sezgisel olarak güvenilir değildir. **PRM (Process Reward Model):** Her akıl yürütme adımına bir puan verir. Hatalı bir adım tespit edilirse, doğru sonuca rağmen düşük ödül alınır. Bu yaklaşım, modelin gerçekten mantıklı bir süreç izlemesini teşvik eder.