library_books Sihirli Bir Arşivci
Elinizde son 1 ayda atılmış 50.000 adet Tweet var. İnsan olarak okumanız imkansız. Topic Modeling algoritmasını çalıştırırsınız ve sistem size 3 farklı küme döndürür: 1. Küme [Gol, Hakem, Maç, Penaltı], 2. Küme [Faiz, Dolar, Enflasyon, Banka], 3. Küme [Seçim, Oy, Parti]. Algoritma Türkçeyi anlamaz, sadece hangi kelimelerin aynı belgelerde yan yana geçtiğinin matematiksel istatistiğini tutar ve bu gizli Konuları (Topic) kusursuzca ayrıştırır.
calculate Latent Dirichlet Allocation (LDA)
Konu modellemede kullanılan en ünlü matematiksel modeldir. Ana felsefesi şudur: 'Her belge, birçok konunun karışımıdır ve her konu da birçok kelimenin karışımıdır.' Bir belge %70 oranında Spor, %30 oranında Ekonomi kelimeleri barındırabilir (Örn: Futbol kulüplerinin borçları haberi).