Process Reward Model (PRM) Nedir? Adım Bazlı LLM Doğrulama

list_altİçindekilerexpand_more

01ORM ve PRM: temel ayrım
02PRM nasıl çalışır?
03Adım etiketleme ve eğitim verisi
04Best-of-N örnekleme + PRM
05MCTS ve ağaç aramasında PRM
06Gerçek dünya örnekleri
07Avantajlar ve sınırlamalar
08ORM mu, PRM mi?

Editorial tech-magazine cover illustration about process reward model and step-by-step AI reasoning evaluation, a glowing chain of reasoning steps with individual verification scoring nodes, neural pathway checkpoints at each step, abstract artificial-intelligence motifs (glowing neural networks, flowing data, subtle circuitry), sophisticated modern concept art, clean balanced composition, soft cinematic studio lighting, rich depth of field, premium color grading in deep navy blues with cyan and magenta accents, highly detailed, polished editorial 8k. No text, no words, no letters, no captions, no logos, no watermark, no UI.

Bir dil modeli matematik problemini beş adımda çözüyor. İlk iki adım kusursuz, üçüncü adımda küçük bir hesaplama hatası yapıyor. Dördüncü adımda bu hatayı telafi eden başka bir hata daha yapıyor ve beşinci adımda doğru cevaba ulaşıyor. Klasik değerlendirici modeli ödüllendiriyor çünkü nihai yanıt doğru. Oysa model, iki hatalı adımın tesadüfen birbirini götürdüğü bir zincir kurdu.

Bu senaryo gerçek. Büyük dil modellerini matematiksel akıl yürütme görevlerinde değerlendiren araştırmacılar bu “lucky guess” sorunuyla tekrar tekrar karşılaştı. Process Reward Model (PRM), bu açığı kapatmak için geliştirildi: her akıl yürütme adımını bağımsız biçimde değerlendirerek modeli doğru sonuca değil, doğru sürece yönlendiriyor.

o3’ün 2025 matematik olimpiyatlarında insan üstü performans göstermesi ve DeepSeek R1’in Batılı frontier modellerle kıyaslanabilir sonuçlar üretmesi bu mimariye kısmen borçlu. Qwen QwQ da benzer bir yol izliyor.

ORM ve PRM: temel ayrım

Değerlendirici modeller iki ana kategoriye ayrılır.

Outcome Reward Model (ORM), bir reward model mimarisidir. Giriş (prompt) ve tüm yanıtı alır, tek bir skaler puan çıkarır. Yanıt doğruysa yüksek puan, yanlışsa düşük puan.

Process Reward Model (PRM) ise aynı giriş için yanıtı adımlara böler ve her adıma ayrı bir puan atar.

Fark kritik: ORM’de yanlış bir ara çıkarım doğru nihai yanıta götürürse model bu süreci öğrenir. PRM’de her hatalı adım anında cezalandırılır. Model yanlış mantık kursa bile doğru cevaba şans eseri ulaşırsa bu durum ödüllendirilmez.

Bu ayrım özellikle çok adımlı çıkarım gerektiren görevlerde belirginleşiyor: matematik ispat, kodlama, sembolik akıl yürütme, hukuki analiz. RLHF hizalama sürecine entegre edildiğinde PRM, modelin “doğru görünen ama yanlış olan” zincirler üretmesini ciddi ölçüde azaltıyor.

PRM nasıl çalışır?

Mimari olarak PRM, standart bir transformer encoder ya da decoder. Çıkış katmanı farklı: her reasoning adımının son token pozisyonuna bir değerlendirme skoru atanıyor.

Eğitim sürecinde model şu girdi formatını görür. Her adım için etiket +1 (doğru) ya da -1 (hatalı) olabilir; ya da 0 ile 1 arasında sürekli bir puan. Model bu etiketlere göre her adımı bağımsız değerlendirmeyi öğrenir.

ORM: (prompt, yanıt)                        → tek puan
PRM: (prompt, [adım_1, adım_2, ..., adım_n]) → [puan_1, puan_2, ..., puan_n]

Çıkarım zamanında PRM üretilen zincirin her adımını değerlendirir. Bu puanlar iki biçimde kullanılır: filtreleme (birden fazla yanıt zinciri arasında en yüksek kümülatif PRM puanına sahip olanı seç) ve arama yönlendirme (ağaç tabanlı aramalarda hangi dal genişletileceğini PRM puanı belirler).

Chain-of-thought prompting ile birleşince PRM iyi bir sinerji oluşturur: CoT modeli düşünme adımlarını açık biçimde yazmaya zorlar, PRM ise bu adımların kalitesini ölçer.

Adım etiketleme ve eğitim verisi

PRM’nin en büyük zorluğu eğitim verisi. İnsan etiketçilerin matematik ispat zincirindeki her adımı ayrı ayrı değerlendirmesi hem pahalı hem zaman alıcı.

Bu soruna iki pratik çözüm geliştirildi.

Monte Carlo Rollout tabanlı etiketleme: Her adıma kadar üretilen kısmi yanıta birden fazla tamamlama (rollout) yapılır. Bu tamamlamaların çoğunluğu doğru sonuca ulaşıyorsa adım pozitif, aksi halde negatif etiketlenir. İnsan etiketçi yerine modelin kendi üretimlerinden geriye dönük sinyal elde edilir.

OpenAI PRM800K: 2023’te yayımlanan bu veri seti 800 bin adım etiketli matematik soru-yanıt içeriyor. MATH dataset sorularına insan etiketçiler tarafından adım bazlı değerlendirmeler eklendi ve açık kaynak olarak yayımlandı. Bugün alan genelinde PRM geliştirmenin referans noktası.

Veri kalitesi doğrudan sonuçları etkiliyor: etiket gürültüsü fazlaysa PRM güvenilmez adım puanları üretiyor. Uzun zincirli muhakemede erken adımlardaki puan hatalarının zincirleme etkisi var; hatalı bir değerlendirme sonraki tüm adımların yönlendirmesini bozabilir.

Best-of-N örnekleme + PRM

PRM’nin en basit kullanım biçimi best-of-N örnekleme. Aynı soruya N adet bağımsız yanıt zinciri üretilir (N genellikle 8-64 arasında), her zincirin adım puanları toplanır ya da minimum değer alınır, en yüksek toplam PRM puanına sahip zincir seçilir.

ORM son yanıtın doğruluğuna bakarak filtreler; bu “lucky guess” problemini tetikler. PRM mantık zincirinin kalitesine bakarak filtreler. N=16 ile bile benchmark sonuçları belirgin iyileşme gösteriyor.

Best-of-N örnekleme doğrusal ölçeklenirken MCTS üstel büyüyor. Küçük N değerleri için best-of-N yeterli, büyük N ve yüksek güvenilirlik gerektiren görevler için ağaç araması gerekli.

MCTS ve ağaç aramasında PRM

PRM’nin asıl gücü Monte Carlo Tree Search (MCTS) ile birleştiğinde ortaya çıkıyor. Go oyunundan tanıdık bu fikir metin alanına uyarlandı.

MCTS’de her düğüm bir reasoning adımı. PRM bu düğümleri değerlendirir. Algoritma yüksek puanlı dalları genişleterek arama alanını belirlenen bir hesaplama bütçesine sığdırır:

1. Selection:  Yüksek PRM puanlı çocuk düğümü seç
2. Expansion:  O düğümden yeni adımlar üret
3. Evaluation: PRM ile her yeni adımı puanla
4. Backprop:   Puanları üst düğümlere yansıt

Sistemin davranışını iki parametre şekillendiriyor: genişlik (aynı düğümden kaç dal üretileceği) ve derinlik (zincirin ne kadar uzatılacağı). Dar-derin konfigürasyonlar doğru yola girince hesaplama açısından verimli çalışıyor, ama erken bir hata tüm dalları batırıyor. Geniş-sığ konfigürasyonlar daha güvenilir ama hesaplama maliyeti hızla artıyor. Bu ikilemin çözümü doğrudan PRM kalitesine bağlı: PRM güvenilir sinyal üretiyorsa dar-derin arama kabul edilebilir risk taşıyor, üretmiyorsa geniş-sığ stratejiye kaçmak gerekiyor. Yüksek compute bütçesiyle çalışan lab’larda bu parametre seçimi benchmark performansının önemli bir belirleyicisi.

Bu döngü, modelin kısa vadede yüksek puan ama uzun vadede başarısız olan yolları takip etmesini önler. Akıl yürüten AI modelleri üzerine araştırmalarda test-time compute’un bu döngüye nasıl dağıtıldığı kritik bir tasarım kararı haline geldi. Daha fazla arama adımı her zaman daha iyi sonuç üretmiyor; PRM’nin kalitesi arama verimliliğini doğrudan belirliyor.

Gerçek dünya örnekleri

OpenAI PRM800K (2023): Lightman ve arkadaşları tarafından yayımlanan bu çalışma, PRM’nin ORM’ye karşı MATH benchmark’ta tutarlı üstünlük gösterdiğini ortaya koydu. Model başına 1000’er örnek değerlendirmede PRM, ORM’yi yaklaşık 8 puanlık doğruluk farkıyla geride bıraktı. Hem veri seti hem yöntem açısından belirleyici bir referans nokta oldu.

DeepSeek-R1: GRPO algoritmasıyla eğitilen DeepSeek-R1, süreç ödüllendirmesini doğrudan eğitim hedefine entegre etti. Geleneksel PRM mimarisinden biraz farklı, ama temel fikir aynı: her akıl yürütme adımı için format ve doğruluk kontrolü. Açık ağırlıklarıyla akademik çevrede geniş ilgi gördü ve o3-mini ile karşılaştırılabilir sonuçlar ürettiği görüldü.

Qwen QwQ: Alibaba’nın QwQ serisi, uzun chain-of-thought ve adım bazlı doğrulama kombinasyonuyla matematik ve kodlamada rekabetçi sonuçlar üretiyor. Açık ağırlıklı modeller arasında reasoning görevlerinde öne çıkan örneklerden biri.

Kimi k1.5: MoonShot AI’ın k1.5 modeli, çok uzun reasoning zincirlerinde (32k+ token) PRM tabanlı kalite kontrolü kullanarak hem kod hem matematik görevlerinde kararlı performans sergiledi.

Bu modellerin ortak noktası, PRM’yi yalnızca değerlendirme için değil, eğitim sürecine de entegre etmeleri. Geleneksel RLHF pipeline’ı outcome sinyaliyle çalışırken, bu modeller her akıl yürütme adımı için sinyal alarak policy’i daha ince düzeyde güncelliyor. OpenAI’ın PRM800K çalışması bu konuda belirleyici oldu: adım etiketli verinin başarıyı outcome etiketli veriden daha iyi yakaladığını açıkça gösterdi. DeepSeek-R1’deki GRPO varyantı insan etiketlemesine gerek duymadan bu sinyali oluşturmanın bir yolunu ortaya koydu; özellikle yüksek etiketleme maliyetiyle boğuşan araştırma grupları için geçerli bir alternatif.

Bu örnekler PRM’nin artık tek bir laboratuvarın deneyi değil, frontier model eğitiminin standart bileşeni haline geldiğine işaret ediyor.

Avantajlar ve sınırlamalar

Güçlü yanlar:

Erken hata tespiti: Yanlış bir adım, zincirin sonuna ulaşmadan yakalanır. Uzun muhakeme zincirlerinde bu özellikle değerli.
Lucky guess önleme: Doğru cevaba yanlış yoldan ulaşmak artık ödüllendirilmiyor; model mantık kalitesini optimize etmek zorunda.
Arama rehberi: MCTS gibi ağaç araması algoritmalarıyla birleşince hesaplama bütçesi çok daha verimli kullanılıyor.
Zincir kalitesi: Model yalnızca sonucu değil, süreci öğrendiğinden farklı problem tiplerine daha iyi genelliyor.

Sınırlamalar:

Etiketleme maliyeti: İnsan etiketçilerle adım bazlı doğrulama, outcome etiketlemeden kat kat daha pahalı.
Dağıtım kayması: PRM’nin eğitim aldığı problem dağılımından uzaklaşıldığında puanlama güvenilirliği düşüyor.
Hata zincirleme: PRM bir adımı yanlış puanlarsa sonraki adımların yönlendirmesi bozulabiliyor; kümülatif hata riski var.
Uzun bağlamda ölçekleme: Yüzlerce adımlı zincirler için MCTS’yi hesaplama açısından yönetmek zorlaşıyor.

ORM mu, PRM mi?

Hangi yaklaşımı seçeceğiniz büyük ölçüde iki faktöre bağlı: görevin çok adımlı çıkarım gerektirip gerektirmediği ve ne kadar hesaplama bütçeniz olduğu. Kısa, bağımsız yanıtlar için ORM yeterince iyi sinyal üretiyor. Uzun zincirler gerektiren görevlerde ise PRM’nin adım bazlı hata yakalama kapasitesi fark yaratıyor. Aşağıdaki tablo yaygın senaryolar için bir başlangıç noktası; kendi benchmark verilerinizle test etmek her zaman daha güvenilir bir karar zemini.

Senaryo	Önerilen Yaklaşım
Kısa, tek adımlı çıkarım (sınıflandırma, özetleme)	ORM yeterli
Çok adımlı matematik / mantık ispat	PRM
Kod üretimi ve hata ayıklama	PRM (derleme + test adımları için)
Kısıtlı hesaplama bütçesi, hızlı çıkarım	ORM
Yüksek güvenilirlik gerektiren kritik görev	PRM + MCTS

Pratikte frontier laboratuvarlar ikisini birlikte kullanıyor: ön eğitimde ORM ile hızlı döngü, fine-tuning ve çıkarım sırasında PRM ile yüksek kalite.

PRM, LLM değerlendirme mimarisinin henüz olgunlaşmakta olan bir parçası. Etiketleme maliyetini düşürmek için otomasyon yöntemleri, PRM’yi daha uzun zincirler için ölçekleme ve hafif PRM versiyonlarını doğrudan LLM içine gömme çalışmaları 2026 boyunca araştırmacıların gündeminde kalmaya devam edecek.

Bu tartışmanın kenarında büyüyen bir yaklaşım daha var: PRM-as-a-judge. Burada PRM eğitim pipeline’ına entegre edilmek yerine, doğrudan inference aşamasında harici bir değerlendirici olarak kullanılıyor. Bir modelin ürettiği adımları başka bir PRM modeli puanlıyor ve sonuç bu değerlendirmeye göre kabul ya da reddediliyor. Mevcut modelleri yeniden eğitmeden kalite kontrolü eklemenin pratik bir yolu. Hafif PRM mimarileri (distile edilmiş, küçük parametreli) bu kullanım senaryosunda öne çıkıyor: adım başı puanlama yapabilecek kadar küçük, anlamlı sinyal üretebilecek kadar kapasiteli.