Deep Reinforcement Learning (DRL) (Derin Pekiştirmeli Öğrenme)

#DerinOgrenme #ReinforcementLearning #AlphaGo #Robotik

Derin Pekiştirmeli Öğrenme (DRL), Derin Öğrenmenin (Derin Sinir Ağları) karmaşık problem çözme kapasitesi ile Pekiştirmeli Öğrenmenin (Ödül-Ceza mantığıyla kendi kendine öğrenme) birleşiminden doğan, yapay zekanın video oyunlarında, robotikte ve strateji oyunlarında (AlphaGo) insanüstü başarılar elde etmesini sağlayan süper-algoritmadır.

sports_esports Satranç ve Go Devrimi

Eski satranç yapay zekalarına satrancın tüm kuralları ve eski maçlar insanlar tarafından elle kodlanırdı. DRL'de ise Google DeepMind'ın AlphaGo Zero modeline sadece Go oyununun kuralları verildi. AI, milyonlarca kez kendi kendiyle oyun oynadı. İyi hamle yapınca puan (ödül) kazandı, kaybedince puanı silindi (Pekiştirmeli Öğrenme). Bu hamlelerin ekrandaki görsel stratejisini ise Derin Sinir Ağlarıyla haritalandırdı. Sonuçta 3 gün içinde kendi kendini eğiterek dünyanın en iyi Go ustası Lee Sedol'u 4-1 mağlup etti.

Nerede Kullanılır?

check_circle Otonom Araçlar: Sanal simülasyonlarda arabayı milyonlarca kez duvara çarptırıp eksi puan vererek, gerçek dünyada yolda kalmayı öğrenmesini sağlamak.
check_circle Robotik (Boston Dynamics): Robot bir köpeğin fiziksel olarak dengede kalmayı ve takla atmayı, düşe kalka milyonlarca deneme yanılma ile ödül alarak öğrenmesi.