Reinforcement Learning (Pekiştirmeli Öğrenme)

Pekiştirmeli Öğrenme (Reinforcement Learning - RL), makine öğreniminin temel kollarından biridir.

Pekiştirmeli Öğrenme (Reinforcement Learning - RL), makine öğreniminin temel kollarından biridir. Sistemin (ajan), belirli bir ortam (environment) içinde deneme yanılma yoluyla eylemler gerçekleştirdiği, doğru hamlelerinde ödül (reward), yanlış hamlelerinde ise ceza (penalty) alarak en yüksek toplam ödüle ulaşacak stratejiyi kendi kendine keşfettiği öğrenme türüdür. İnsanların bisiklete binmeyi öğrenme sürecine çok benzer.

sports_esports Nasıl Çalışır?

Süreç bir döngüdür: Ajan ortamın o anki durumunu (state) gözlemler, olasılıkları hesaplayıp bir aksiyon (action) alır. Ortam bu aksiyona bir tepki verir ve ajanın yeni bir duruma geçmesini sağlar, aynı zamanda bu hamlenin ne kadar iyi olduğuna dair bir ödül (veya negatif ödül/ceza) verir. Ajan, amacı olan 'uzun vadedeki kümülatif ödülü maksimize etme' (Value Function) doğrultusunda hangi durumda hangi hamleyi yapması gerektiğini bir harita (Policy) olarak hafızasına kazır.

En Önemli Başarıları

grid_on AlphaGo (DeepMind)

Dünyanın en karmaşık masa oyunu Go'da dünya şampiyonunu yenen ilk yapay zeka. Pekiştirmeli öğrenme kullanarak kendi kendine milyonlarca kez oyun oynamıştır.

smart_toy Robotik

Boston Dynamics gibi şirketlerin yürüyen, takla atan ve engelleri aşan robotlarının dengede kalmayı fizik simülasyonlarında öğrenme yöntemi.

thumb_up RLHF (LLM İnce Ayarı)

İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme. GPT-3'ün kaba ve tehlikeli olabilen ham halinden, kibar, zararsız ve yardımsever ChatGPT'yi yaratan süreç.

quiz Sıkça Sorulan Sorular (FAQ)

  • check_circle Denetimli (Supervised) Öğrenme'den farkı nedir?: Denetimli öğrenmede algoritmaya 'doğru cevabın ne olduğu' önceden etiketli verilerle verilir. Pekiştirmeli öğrenmede ise doğru cevap verilmez; ajan rastgele hamleler yaparak (exploration) doğruyu kendi başına bulmak zorundadır.
  • check_circle Deep Reinforcement Learning (DRL) nedir?: Geleneksel pekiştirmeli öğrenme tabloları ile derin yapay sinir ağlarının birleşimidir. Atari oyunlarının ekrandaki piksellerini doğrudan okuyup oyun oynamayı öğrenen sistemler bu sayede gelişmiştir.