Topic Modeling (Konu Modelleme)

#NLP #DenetimsizOgrenme #MetinAnalizi #VeriMadenciligi

Konu Modelleme, binlerce hatta milyonlarca metin belgesinin (haberler, tweetler, kitaplar) ne hakkında olduğunu tespit etmek için, metinleri tek tek okumadan denetimsiz makine öğrenimi (Örn: LDA algoritması) kullanarak belgelerin içindeki ortak temaları (konuları) ve kelime kümelerini otomatik olarak keşfetme işlemidir.

library_books Sihirli Bir Arşivci

Elinizde son 1 ayda atılmış 50.000 adet Tweet var. İnsan olarak okumanız imkansız. Topic Modeling algoritmasını çalıştırırsınız ve sistem size 3 farklı küme döndürür: 1. Küme [Gol, Hakem, Maç, Penaltı], 2. Küme [Faiz, Dolar, Enflasyon, Banka], 3. Küme [Seçim, Oy, Parti]. Algoritma Türkçeyi anlamaz, sadece hangi kelimelerin aynı belgelerde yan yana geçtiğinin matematiksel istatistiğini tutar ve bu gizli Konuları (Topic) kusursuzca ayrıştırır.

calculate Latent Dirichlet Allocation (LDA)

Konu modellemede kullanılan en ünlü matematiksel modeldir. Ana felsefesi şudur: 'Her belge, birçok konunun karışımıdır ve her konu da birçok kelimenin karışımıdır.' Bir belge %70 oranında Spor, %30 oranında Ekonomi kelimeleri barındırabilir (Örn: Futbol kulüplerinin borçları haberi).