tag Alignment

Bu sayfada Alignment etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

model_training

DPO (Doğrudan Tercih Optimizasyonu)

DPO (Direct Preference Optimization — Doğrudan Tercih Optimizasyonu), büyük dil modellerini insan tercihlerine göre hizalamak için kullanılan ve RLHF'nin karmaşıklığını ortadan kaldıran bir ince ayar (fine-tuning) yöntemidir. Rafailov ve arkadaşları tarafından 2023'te Stanford'da önerilmiştir. RLHF'de ödül modeli eğitip PPO ile pekiştirmeli öğrenme yapmak gerekirken, DPO bu süreci tek bir denetimli öğrenme adımına indirger: tercih çiftleri (kazanan-kaybeden yanıt çiftleri) ile modeli doğrudan eğitir.

arrow_forward