settings PPO Nasıl Çalışır?
PPO, politika gradyanı yönteminin kararsız büyük güncellemeler sorununu çözmek için kırpma mekanizması kullanır. Temel fikir şudur: Yeni politika (π_θ) ile eski politika (π_θ_old) arasındaki oran r_t = π_θ(a|s) / π_θ_old(a|s) hesaplanır. Bu oran 1'den çok saptığında (politika çok değiştiğinde) güncelleme kırpılır. Kayıp fonksiyonu: L_CLIP = E[min(r_t * A_t, clip(r_t, 1-ε, 1+ε) * A_t)], burada A_t avantaj tahminidir ve ε genellikle 0.2'dir. RLHF'de PPO döngüsü şöyle ilerler: (1) Politika model bir istem için yanıt üretir. (2) Ödül modeli yanıtı puanlar. (3) KL penaltısı hesaplanır: r_KL = r_RM - β * KL(π_θ || π_SFT). (4) PPO bu toplam ödülle politikayı günceller. (5) Döngü tekrar başlar.
PPO vs Diğer RL Algoritmaları
bolt REINFORCE
En basit politika gradyanı yöntemi; yüksek varyans, kararsız eğitim. PPO bunun üzerine inşa edilir.
functions TRPO
PPO'nun öncülü; güven bölgesi garantisi sağlar ama ikinci dereceden optimizasyon gerektirir — hesaplama maliyeti yüksektir.
star PPO
Kırpılmış kayıp ile TRPO benzeri kararlılık, birinci dereceden optimizasyonla. Uygulaması kolay ve güçlü.
trending_up DPO
Ayrı ödül modeli ve RL döngüsü olmadan doğrudan tercih optimizasyonu. LLM hizalamasında PPO'nun yerini almaya başladı.
account_tree RLHF'de PPO Boru Hattı
- check_circle Başlangıç Politikası: SFT modeli hem başlangıç politikası (π_θ) hem de KL referans modeli (π_SFT) olarak kullanılır. Bu, modelin temel talimat izleme yeteneğini korumasını sağlar.
- check_circle Ödül Sinyali: Ödül modeli puanına β katsayılıyla KL penaltısı eklenir. KL penaltısı, modelin SFT dağılımından aşırı uzaklaşarak dil bozulmasını (ödül hacklemesi) önler.
- check_circle Hesaplama Maliyeti: PPO her adımda politika, ödül, referans ve değer (value) modellerini bellekte tutar — dört model çalıştırılır. Bu, DPO'ya kıyasla 3–4× daha fazla GPU belleği gerektirir.
- check_circle Hiperparametre Hassasiyeti: PPO kırpma oranı ε, KL katsayısı β ve öğrenme hızı LLM bağlamında kritik hiperparametrelerdir. Kötü ayarlar eğitimi kararsızlaştırabilir veya ödül hacklemesine yol açabilir.
quiz Sıkça Sorulan Sorular
- check_circle PPO neden RLHF'de bu kadar yaygın kullanıldı?: PPO, politika gradyanı yöntemleri arasında en iyi kararlılık-verimlilik dengesini sunar. OpenAI tarafından InstructGPT ve ChatGPT'de kullanılması, RLHF standardı haline gelmesinde belirleyici oldu.
- check_circle DPO PPO'nun yerini tamamen aldı mı?: Büyük ölçüde. Meta Llama 2/3, Mistral ve birçok açık kaynak modeli DPO veya türevlerini kullanır. Ancak bazı durumlarda PPO'nun online RL geri bildiriminden sağlanan avantajı hâlâ geçerlidir.
- check_circle PPO robotik ve oyun AI'sında da kullanılır mı?: Evet, PPO robotik simülasyon (MuJoCo, OpenAI Gym) ve oyun AI'sında (StarCraft II, Dota 2) standart bir algoritmadır. RLHF bağlamında kullanımı bu temelden gelir.