PPO (Proximal Policy Optimization)

#PPO #RLHF #PolitikaGradyanı #Pekiştirmeli Öğrenme #InstructGPT #ChatGPT #DPO

PPO, pekiştirmeli öğrenmede güven bölgesi kırpmasıyla kararlı politika güncellemesi sağlayan ve RLHF boru hattında kullanılan optimizasyon algoritmasıdır.

PPO (Proximal Policy Optimization), John Schulman ve arkadaşları tarafından OpenAI'da 2017 yılında geliştirilen, pekiştirmeli öğrenmede politika gradyanı tabanlı bir optimizasyon algoritmasıdır. TRPO'nun (Trust Region Policy Optimization) hesaplama karmaşıklığını azaltarak benzer kararlılık garantileri sunan PPO, hem robotik kontrolde hem de RLHF boru hattında standart tercih haline gelmiştir. PPO'nun temel yeniliği, politika güncellemelerini "güven bölgesi" (trust region) içinde sınırlayan kırpılmış vekil kayıp (clipped surrogate loss) fonksiyonudur. Politika, eski politikadan çok fazla saparsa güncelleme kırpılır. Bu yöntem, ikinci dereceden optimizasyon gerektiren TRPO'ya kıyasla hem uygulanması kolay hem de hesaplama açısından verimlidir. RLHF bağlamında PPO şöyle çalışır: SFT (Supervised Fine-Tuning) modelini başlangıç noktası olarak alan politika, bir istek alır ve yanıt üretir. Ödül modeli yanıta bir puan verir. PPO bu puanı reward sinyali olarak kullanarak politika modelini günceller. KL sapma penaltısı, politikanın SFT modelinden çok uzaklaşmamasını sağlar. Bu döngü binlerce adım boyunca tekrarlanır. ChatGPT, InstructGPT ve Claude'un ilk sürümlerinin eğitim boru hattında PPO kritik bir rol oynamıştır. Ancak hesaplama maliyeti ve karmaşıklığı nedeniyle DPO gibi daha basit tercih optimizasyonu yöntemleri popülerlik kazanmaktadır.

settings PPO Nasıl Çalışır?

PPO, politika gradyanı yönteminin kararsız büyük güncellemeler sorununu çözmek için kırpma mekanizması kullanır. Temel fikir şudur: Yeni politika (π_θ) ile eski politika (π_θ_old) arasındaki oran r_t = π_θ(a|s) / π_θ_old(a|s) hesaplanır. Bu oran 1'den çok saptığında (politika çok değiştiğinde) güncelleme kırpılır. Kayıp fonksiyonu: L_CLIP = E[min(r_t * A_t, clip(r_t, 1-ε, 1+ε) * A_t)], burada A_t avantaj tahminidir ve ε genellikle 0.2'dir. RLHF'de PPO döngüsü şöyle ilerler: (1) Politika model bir istem için yanıt üretir. (2) Ödül modeli yanıtı puanlar. (3) KL penaltısı hesaplanır: r_KL = r_RM - β * KL(π_θ || π_SFT). (4) PPO bu toplam ödülle politikayı günceller. (5) Döngü tekrar başlar.

PPO vs Diğer RL Algoritmaları

bolt REINFORCE

En basit politika gradyanı yöntemi; yüksek varyans, kararsız eğitim. PPO bunun üzerine inşa edilir.

functions TRPO

PPO'nun öncülü; güven bölgesi garantisi sağlar ama ikinci dereceden optimizasyon gerektirir — hesaplama maliyeti yüksektir.

star PPO

Kırpılmış kayıp ile TRPO benzeri kararlılık, birinci dereceden optimizasyonla. Uygulaması kolay ve güçlü.

trending_up DPO

Ayrı ödül modeli ve RL döngüsü olmadan doğrudan tercih optimizasyonu. LLM hizalamasında PPO'nun yerini almaya başladı.

account_tree RLHF'de PPO Boru Hattı

check_circle Başlangıç Politikası: SFT modeli hem başlangıç politikası (π_θ) hem de KL referans modeli (π_SFT) olarak kullanılır. Bu, modelin temel talimat izleme yeteneğini korumasını sağlar.
check_circle Ödül Sinyali: Ödül modeli puanına β katsayılıyla KL penaltısı eklenir. KL penaltısı, modelin SFT dağılımından aşırı uzaklaşarak dil bozulmasını (ödül hacklemesi) önler.
check_circle Hesaplama Maliyeti: PPO her adımda politika, ödül, referans ve değer (value) modellerini bellekte tutar — dört model çalıştırılır. Bu, DPO'ya kıyasla 3–4× daha fazla GPU belleği gerektirir.
check_circle Hiperparametre Hassasiyeti: PPO kırpma oranı ε, KL katsayısı β ve öğrenme hızı LLM bağlamında kritik hiperparametrelerdir. Kötü ayarlar eğitimi kararsızlaştırabilir veya ödül hacklemesine yol açabilir.

quiz Sıkça Sorulan Sorular

check_circle PPO neden RLHF'de bu kadar yaygın kullanıldı?: PPO, politika gradyanı yöntemleri arasında en iyi kararlılık-verimlilik dengesini sunar. OpenAI tarafından InstructGPT ve ChatGPT'de kullanılması, RLHF standardı haline gelmesinde belirleyici oldu.
check_circle DPO PPO'nun yerini tamamen aldı mı?: Büyük ölçüde. Meta Llama 2/3, Mistral ve birçok açık kaynak modeli DPO veya türevlerini kullanır. Ancak bazı durumlarda PPO'nun online RL geri bildiriminden sağlanan avantajı hâlâ geçerlidir.
check_circle PPO robotik ve oyun AI'sında da kullanılır mı?: Evet, PPO robotik simülasyon (MuJoCo, OpenAI Gym) ve oyun AI'sında (StarCraft II, Dota 2) standart bir algoritmadır. RLHF bağlamında kullanımı bu temelden gelir.