DPO (Doğrudan Tercih Optimizasyonu)
DPO (Direct Preference Optimization — Doğrudan Tercih Optimizasyonu), büyük dil modellerini insan tercihlerine göre hizalamak için kullanılan ve RLHF'nin karmaşıklığını ortadan kaldıran bir ince ayar (fine-tuning) yöntemidir. Rafailov ve arkadaşları tarafından 2023'te Stanford'da önerilmiştir. RLHF'de ödül modeli eğitip PPO ile pekiştirmeli öğrenme yapmak gerekirken, DPO bu süreci tek bir denetimli öğrenme adımına indirger: tercih çiftleri (kazanan-kaybeden yanıt çiftleri) ile modeli doğrudan eğitir.