sports_esports Nasıl Çalışır?
Süreç bir döngüdür: Ajan ortamın o anki durumunu (state) gözlemler, olasılıkları hesaplayıp bir aksiyon (action) alır. Ortam bu aksiyona bir tepki verir ve ajanın yeni bir duruma geçmesini sağlar, aynı zamanda bu hamlenin ne kadar iyi olduğuna dair bir ödül (veya negatif ödül/ceza) verir. Ajan, amacı olan 'uzun vadedeki kümülatif ödülü maksimize etme' (Value Function) doğrultusunda hangi durumda hangi hamleyi yapması gerektiğini bir harita (Policy) olarak hafızasına kazır.
En Önemli Başarıları
grid_on AlphaGo (DeepMind)
Dünyanın en karmaşık masa oyunu Go'da dünya şampiyonunu yenen ilk yapay zeka. Pekiştirmeli öğrenme kullanarak kendi kendine milyonlarca kez oyun oynamıştır.
smart_toy Robotik
Boston Dynamics gibi şirketlerin yürüyen, takla atan ve engelleri aşan robotlarının dengede kalmayı fizik simülasyonlarında öğrenme yöntemi.
thumb_up RLHF (LLM İnce Ayarı)
İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme. GPT-3'ün kaba ve tehlikeli olabilen ham halinden, kibar, zararsız ve yardımsever ChatGPT'yi yaratan süreç.
quiz Sıkça Sorulan Sorular (FAQ)
- check_circle Denetimli (Supervised) Öğrenme'den farkı nedir?: Denetimli öğrenmede algoritmaya 'doğru cevabın ne olduğu' önceden etiketli verilerle verilir. Pekiştirmeli öğrenmede ise doğru cevap verilmez; ajan rastgele hamleler yaparak (exploration) doğruyu kendi başına bulmak zorundadır.
- check_circle Deep Reinforcement Learning (DRL) nedir?: Geleneksel pekiştirmeli öğrenme tabloları ile derin yapay sinir ağlarının birleşimidir. Atari oyunlarının ekrandaki piksellerini doğrudan okuyup oyun oynamayı öğrenen sistemler bu sayede gelişmiştir.