PRM Nedir? Süreç Ödül Modeli ve ORM Farkı (2026)

PRM Nasıl Çalışır?

Bir PRM, çözümü adımlara bölünmüş bir akıl yürütme zinciri olarak alır ve her adıma bir skor üretir. Teknik olarak çoğu PRM, önceden eğitilmiş bir dil modelinin üzerine eklenen bir sınıflandırma başlığıyla kurulur: her adım sonundaki özel bir işaretleyici token'da model, o adımın "doğru / nötr / hatalı" olma olasılığını tahmin eder. Eğitim verisi iki yoldan gelir. Birincisi insan etiketleme: OpenAI'nin PRM800K çalışmasında uzmanlar, MATH problemlerine üretilmiş çözümlerin 800 binden fazla adımını tek tek işaretledi. İkincisi otomatik etiketleme: Math-Shepherd yöntemi, bir adımın "değerini" o adımdan devam eden tamamlamaların kaçının doğru sonuca ulaştığıyla (Monte Carlo tahmini) ölçer ve insan emeği olmadan milyonlarca adım etiketi üretir. Çıkarımda zincirin toplam skoru genellikle adım skorlarının çarpımı veya minimumu alınarak hesaplanır; tek bir çürük adım tüm zinciri değersizleştirir.

PRM ve ORM Karşılaştırması

hedef Değerlendirme birimi

ORM yalnızca nihai cevabı puanlar; PRM her ara adımı ayrı ayrı skorlar. 20 adımlık bir çözümde ORM 1, PRM 20 sinyal üretir.

sans Şanslı tahmin sorunu

ORM, yanlış adımlarla doğru sonuca ulaşan zinciri de ödüllendirir. PRM hatalı adımı yakaladığı için doğru sonuca rağmen düşük skor verir.

veri Veri maliyeti

ORM için tek etiket (doğru/yanlış) yeter; PRM adım başına etiket ister. PRM800K bu iş için insan emeğiyle 800K+ adım etiketledi.

kalkan Ödül hackleme riski

Yoğun adım sinyali, modelin skoru kandırmayı öğrenmesine kapı açar. DeepSeek-R1 bu riskten ötürü RL eğitiminde PRM yerine kural tabanlı sonuç ödülünü seçti.

buyutec Yorumlanabilirlik

PRM, hatanın zincirin tam olarak hangi adımında çıktığını gösterir; ORM yalnızca sonucun yanlış olduğunu söyler.

PRM'nin Kullanım Alanları

check_circle Best-of-N doğrulama (verifier): Model aynı soruya N farklı çözüm üretir (örneğin N=64), PRM her zinciri puanlar ve en yüksek skorlu çözüm seçilir. "Let's Verify Step by Step" çalışmasında bu yöntem MATH'te çoğunluk oylamasını ve ORM'yi geride bıraktı.
check_circle MCTS ile aramalı akıl yürütme: Monte Carlo Ağaç Araması'nda PRM, ağaçtaki her düğümü (ara adımı) değerlendirip aramayı umut vadeden dallara yönlendirir; rStar-Math gibi çalışmalar bu kombinasyonla küçük modellere o1 seviyesi matematik performansı kazandırdı.
check_circle Pekiştirmeli öğrenmede yoğun ödül: RLHF/RLVR eğitiminde adım bazlı ödül, seyrek sonuç ödülüne göre daha zengin gradyan sinyali verir; ancak ödül hacklemeye karşı dikkatli düzenlileştirme gerektirir.
check_circle Sentetik veri filtreleme: Distilasyon veya kendi kendine eğitim (self-training) için üretilen milyonlarca çözüm, PRM ile ayıklanır: hatalı adım içeren zincirler eğitim setine hiç girmez.
check_circle Adım bazlı hata teşhisi: ProcessBench ve PRMBench gibi kıyaslamalar, bir PRM'nin çözümdeki ilk hatalı adımı bulma becerisini ölçer; bu, üretim sistemlerinde otomatik hata ayıklama için kullanılır.

Muhakeme Modelleri Çağında PRM

OpenAI o1/o3, DeepSeek-R1, Gemini 2.5 ve Qwen3'ün düşünme modları gibi uzun düşünce zinciri üreten modeller, PRM tartışmasını yeniden şekillendirdi. DeepSeek-R1'in teknik raporu, büyük ölçekli RL'de PRM kullanmamayı üç gerekçeye bağladı: genel akıl yürütmede "iyi adım" tanımlamak zor, otomatik adım etiketleme güvenilmez ve model tabanlı ödül, ödül hacklemeye davetiye çıkarıyor. R1 bunun yerine cevabı doğrulanabilir görevlerde (matematik, kod) kural tabanlı sonuç ödülüyle GRPO eğitimi yaptı. Buna karşılık PRM'ler çıkarım tarafında güçlendi: Qwen2.5-Math-PRM-72B, ProcessBench'te GPT-4o'yu geçen hata yakalama skorlarına ulaştı ve Best-of-N kurulumlarında matematik doğruluğunu tek denemeye göre 8-10 puana kadar artırabiliyor. Özet denge şu: eğitim sinyali olarak doğrulanabilir sonuç ödülü, çıkarım ve veri kalitesi katmanı olarak PRM — 2026'nın yaygın reçetesi bu ikili.

Zorluklar ve Açık Araştırma Soruları

PRM'nin en büyük darboğazı etiket maliyeti: insan uzmanların adım adım işaretlemesi hem pahalı hem yavaş; PRM800K'nın üretimi aylarca uzman emeği gerektirdi. Math-Shepherd'ın Monte Carlo yaklaşımı bunu otomatikleştirir ama "sonuca katkı" ile "süreç doğruluğu"nu karıştırabilir: yanlış bir adım, güçlü bir model tarafından telafi edilip doğru sonuca bağlanırsa yanlışlıkla pozitif etiketlenir. İkinci sorun genelleme: matematikte eğitilen bir PRM, hukuk muhakemesi veya açık uçlu planlama gibi "tek doğru cevabı olmayan" alanlara zayıf aktarım gösterir. Üçüncüsü ödül hackleme: RL politikası, PRM'nin sevdiği yüzeysel kalıpları (gereksiz uzun adımlar, sahte doğrulama cümleleri) üretmeyi öğrenebilir. Güncel araştırma damarları arasında üretken PRM'ler (skoru sınıflandırma yerine gerekçeli metinle üreten eleştirmen modeller), süreç ödülünü sonuç doğrulamasıyla melezleyen yaklaşımlar ve PRMBench gibi ince taneli kıyaslamalar öne çıkıyor.

Önemli Veri Setleri ve Kıyaslamalar

check_circle PRM800K (OpenAI, 2023): MATH problemlerinin çözümlerinden 800 binden fazla insan etiketli adım içeren, alanın kurucu veri seti.
check_circle Math-Shepherd (2024): İnsan etiketi olmadan, tamamlama tabanlı Monte Carlo tahminiyle otomatik adım etiketi üreten yöntem ve veri seti.
check_circle ProcessBench (Qwen, 2024): GSM8K'dan olimpiyat seviyesine 3.400 test örneğinde, çözümdeki ilk hatalı adımı bulma becerisini ölçen kıyaslama.
check_circle PRMBench (2025): 6.000'den fazla problemde gereksizlik, döngüsellik ve alan bilgisi hatası gibi ince taneli hata türleriyle PRM'leri sınayan kıyaslama.
check_circle Qwen2.5-Math-PRM ve Skywork-PRM: Açık ağırlıklı, üretimde kullanılabilir PRM aileleri; 7B'den 72B'ye ölçeklerde yayınlandı.

Sık Sorulan Sorular

check_circle PRM nedir, ne işe yarar?: PRM (Process Reward Model), bir çözümün yalnızca sonucunu değil her akıl yürütme adımını ayrı ayrı puanlayan ödül modelidir. Matematik, kod ve mantık görevlerinde en iyi aday çözümü seçmek ve eğitim verisini filtrelemek için kullanılır.
check_circle PRM ile ORM arasındaki fark nedir?: ORM yalnızca nihai cevabın doğruluğuna bakar; PRM her ara adıma skor verir. ORM şanslı tahminleri ödüllendirebilirken PRM hatalı adımı yakalar ve doğru sonuca rağmen düşük skor üretir.
check_circle PRM ile RLHF nasıl ilişkilidir?: RLHF genel çerçevedir: insan geri bildirimiyle bir ödül modeli eğitilir, model bu sinyalle RL üzerinden iyileştirilir. PRM bu çerçevedeki ödül modelinin adım bazlı türüdür; klasik RLHF ödül modeli ise yanıtın bütününü tek skorla değerlendirir.
check_circle DeepSeek-R1 neden PRM kullanmadı?: R1 ekibi, genel akıl yürütmede adım doğruluğunu tanımlamanın zor olduğunu, otomatik etiketlemenin güvenilmez kaldığını ve model tabanlı ödülün ödül hacklemeye açık olduğunu raporladı; bu yüzden doğrulanabilir görevlerde kural tabanlı sonuç ödülüyle GRPO eğitimini tercih etti.
check_circle PRM eğitmek için veri nasıl toplanır?: İki yol var: insan etiketleme (PRM800K'da uzmanlar 800K+ adımı tek tek işaretledi) ve otomatik etiketleme (Math-Shepherd, bir adımdan devam eden tamamlamaların doğru sonuca ulaşma oranını Monte Carlo ile tahmin eder).
check_circle PRM'ler bugün pratikte nerede kullanılıyor?: En yaygın kullanım çıkarım anında: Best-of-N örneklemede doğrulayıcı, MCTS'te düğüm değerlendirici ve sentetik eğitim verisini ayıklayan filtre olarak. Qwen2.5-Math-PRM gibi açık modeller bu amaçlarla üretim hatlarına entegre ediliyor.