hub Birliktelik Kuralı Madenciliği Nasıl Çalışır?
Birliktelik kuralı madenciliği, bir işlem veritabanındaki öğe kümelerini (itemsets) analiz ederek hangi kombinasyonların anlamlı ilişkileri temsil ettiğini bulur. Süreç iki ana aşamadan oluşur: Önce belirli bir minimum destek eşiğini sağlayan sık öğe kümeleri (frequent itemsets) belirlenir; ardından bu kümelerden minimum güven eşiğini karşılayan kurallar türetilir. Örnek olarak: Bir süpermarketin 1.000 işlem kaydında 'ekmek ve tereyağı' birlikte 200 kez alınmışsa, bu çiftin desteği %20'dir. Ekmek alındığında 200 işlemin 160'ında tereyağı da alınmışsa, güven değeri %80 olur. Lift ise 'tereyağının tüm işlemlerdeki satın alınma olasılığı'na (örn. %30) bölünerek bulunur: 0.80/0.30 = 2.67 — ekmek alanların tereyağı alma olasılığı rastgele bir müşteriye göre 2.67 kat daha yüksektir.
Temel Algoritmalar
account_tree Apriori Algoritması
Sık öğe kümelerini aday oluşturma ve budama (prune) adımlarıyla bulur. Anti-monoton özelliğini kullanır: seyrek olan bir kümenin üst kümesi de seyrek olacaktır. Basit ve anlaşılır, ancak büyük veride çok sayıda veritabanı taraması nedeniyle yavaş kalabilir.
forest FP-Growth
Veriyi özel bir ağaç yapısına (FP-Tree) sıkıştırır ve tek geçişte sık öğe kümelerini çıkarır. Apriori'den 10-100× daha hızlı çalışabilir; bellekte FP-Tree oluşturulduğu için tekrarlı veritabanı taramalarına gerek yoktur. Büyük veri setleri için tercih edilen yöntemdir.
grid_view Eclat
Vertical veri formatını kullanır: her öğenin hangi işlemlerde geçtiğini küme kesişim işlemiyle hesaplar. Destek hesabı küme boyutuna göre O(1) amortize edilebilir. Orta ölçekli veritabanlarında verimli; çok büyük transaksiyonel veride bellek baskısı oluşturabilir.
apps Uygulama Alanları
- check_circle E-ticaret ve Perakende: Amazon'un 'Bu ürünü alanlar şunları da aldı' öneri motoru, market raf düzeni optimizasyonu ve çapraz satış (cross-sell) stratejilerinde kullanılır.
- check_circle Tıp ve İlaç Araştırmaları: Hastalık semptomları arasındaki ilişkileri bulmak, ilaç yan etki kombinasyonlarını keşfetmek ve tanı örüntülerini analiz etmek için kullanılır.
- check_circle Siber Güvenlik: Ağ trafiğindeki anormal örüntüleri belirlemek, saldırı vektörlerini birlikte gerçekleşen olaylarla ilişkilendirmek ve saldırı sıralama örüntülerini keşfetmek için uygulanır.
- check_circle Finans ve Bankacılık: Müşteri harcama örüntüleri analizi, dolandırıcılık tespiti ve ürün çapraz satışı (kredi kartı + sigorta paketleme gibi) için kullanılır.
- check_circle Biyoinformatik: Gen ifadesi verilerinde birlikte aktifleşen genleri belirlemek, protein etkileşim ağlarını modellemek ve hastalık gen ilişkilerini keşfetmekte kullanılır.
quiz Sıkça Sorulan Sorular
- check_circle Destek, güven ve lift değerleri nasıl yorumlanır?: Destek (≥0.01-0.05 tipik eşik), kuralın istatistiksel anlamlılığını sağlar. Güven (≥0.5-0.8 tipik), kuralın öngörücü gücünü gösterir. Lift >1 pozitif ilişkiyi, <1 negatif ilişkiyi, =1 bağımsızlığı ifade eder. Üç metrik birlikte değerlendirilmelidir.
- check_circle Çok fazla kural üretilince ne yapılır?: Kural patlaması (rule explosion) yaygın bir sorundur. Minimum destek ve güven eşiklerini yükselterek kural sayısını azaltabilirsiniz. Alternatif olarak chi-kare testi, Fisher's exact test veya conviction metriği gibi istatistiksel filtreleme yöntemleri kullanılabilir.
- check_circle Birliktelik kuralları nedensellik gösterir mi?: Hayır. Birliktelik kuralları yalnızca korelasyon gösterir, nedensellik değil. 'Ekmek alanlar tereyağı da alır' kuralı ekmek alımının tereyağı alımına neden olduğunu kanıtlamaz. Nedensellik analizi için Granger nedensellik, propensity score matching gibi ek yöntemler gerekir.
- check_circle Apriori mi, FP-Growth mu kullanmalıyım?: Küçük-orta veritabanları ve prototipler için Apriori anlaşılırlığı sayesinde idealdir. Büyük veritabanları (>100K işlem) veya yüksek performans gerektiren üretim sistemleri için FP-Growth tercih edilir. Bellek kısıtlı ortamlarda Eclat da iyi bir alternatiftir.