sports_esports Satranç ve Go Devrimi
Eski satranç yapay zekalarına satrancın tüm kuralları ve eski maçlar insanlar tarafından elle kodlanırdı. DRL'de ise Google DeepMind'ın AlphaGo Zero modeline sadece Go oyununun kuralları verildi. AI, milyonlarca kez kendi kendiyle oyun oynadı. İyi hamle yapınca puan (ödül) kazandı, kaybedince puanı silindi (Pekiştirmeli Öğrenme). Bu hamlelerin ekrandaki görsel stratejisini ise Derin Sinir Ağlarıyla haritalandırdı. Sonuçta 3 gün içinde kendi kendini eğiterek dünyanın en iyi Go ustası Lee Sedol'u 4-1 mağlup etti.
Nerede Kullanılır?
- check_circle Otonom Araçlar: Sanal simülasyonlarda arabayı milyonlarca kez duvara çarptırıp eksi puan vererek, gerçek dünyada yolda kalmayı öğrenmesini sağlamak.
- check_circle Robotik (Boston Dynamics): Robot bir köpeğin fiziksel olarak dengede kalmayı ve takla atmayı, düşe kalka milyonlarca deneme yanılma ile ödül alarak öğrenmesi.