Association Rule Mining (Birliktelik Kuralı Madenciliği)

Birliktelik Kuralı Madenciliği, büyük veri setlerindeki öğeler arasındaki birlikte görünme örüntülerini sistematik biçimde keşfeden veri madenciliği yöntemidir.

Birliktelik Kuralı Madenciliği (Association Rule Mining), büyük veri setleri içindeki öğeler arasındaki ilişkileri, örüntüleri ve birlikte ortaya çıkma eğilimlerini keşfeden bir veri madenciliği yöntemidir. Bu teknik, belirli öğelerin bir arada bulunma sıklığını analiz ederek "Eğer X satın alınırsa, Y de satın alınır" gibi anlamlı kurallar çıkarır. 1993 yılında Agrawal ve Srikant tarafından geliştirilen Apriori algoritmasıyla önem kazanan bu yöntem, günümüzde e-ticaret öneri sistemlerinden ilaç araştırmalarına, siber güvenlikten finans sektörüne kadar geniş bir uygulama alanına sahiptir. Algoritma üç temel metriğe dayanır: Destek (Support), güven (Confidence) ve kaldıraç (Lift). Destek, bir kuralın veri kümesinde ne sıklıkla geçerli olduğunu gösterir. Güven, öncül (antecedent) gerçekleştiğinde sonucun (consequent) ne kadar olasılıkla gerçekleşeceğini ifade eder. Lift ise kuralın rastlantısallığın ötesinde ne kadar anlamlı olduğunu ölçer; lift değeri 1'den büyükse öğeler arasında pozitif bir ilişki vardır. Birliktelik kuralı madenciliğinin en tanınan uygulaması market sepeti analizidir (market basket analysis). Bir süpermarketin satış verilerini analiz ettiğinizde "bezle birlikte ıslak mendil de alınıyor" veya "bira alanlar cips de alıyor" gibi içgörüler elde edilebilir. Bu tür bilgiler raf düzeni optimizasyonu, çapraz satış stratejileri ve kişiselleştirilmiş pazarlama kampanyalarında kritik rol oynar. Amazon, Netflix ve Spotify gibi platformlar da birliktelik kuralı ilkelerinden yararlanarak kişiye özel ürün ve içerik önerileri sunar. Yöntem, denetimsiz öğrenme (unsupervised learning) kategorisinde değerlendirilir; önceden etiketlenmiş veriye gerek duymadan ham işlem kayıtlarından doğrudan anlam çıkarır.

hub Birliktelik Kuralı Madenciliği Nasıl Çalışır?

Birliktelik kuralı madenciliği, bir işlem veritabanındaki öğe kümelerini (itemsets) analiz ederek hangi kombinasyonların anlamlı ilişkileri temsil ettiğini bulur. Süreç iki ana aşamadan oluşur: Önce belirli bir minimum destek eşiğini sağlayan sık öğe kümeleri (frequent itemsets) belirlenir; ardından bu kümelerden minimum güven eşiğini karşılayan kurallar türetilir. Örnek olarak: Bir süpermarketin 1.000 işlem kaydında 'ekmek ve tereyağı' birlikte 200 kez alınmışsa, bu çiftin desteği %20'dir. Ekmek alındığında 200 işlemin 160'ında tereyağı da alınmışsa, güven değeri %80 olur. Lift ise 'tereyağının tüm işlemlerdeki satın alınma olasılığı'na (örn. %30) bölünerek bulunur: 0.80/0.30 = 2.67 — ekmek alanların tereyağı alma olasılığı rastgele bir müşteriye göre 2.67 kat daha yüksektir.

Temel Algoritmalar

account_tree Apriori Algoritması

Sık öğe kümelerini aday oluşturma ve budama (prune) adımlarıyla bulur. Anti-monoton özelliğini kullanır: seyrek olan bir kümenin üst kümesi de seyrek olacaktır. Basit ve anlaşılır, ancak büyük veride çok sayıda veritabanı taraması nedeniyle yavaş kalabilir.

forest FP-Growth

Veriyi özel bir ağaç yapısına (FP-Tree) sıkıştırır ve tek geçişte sık öğe kümelerini çıkarır. Apriori'den 10-100× daha hızlı çalışabilir; bellekte FP-Tree oluşturulduğu için tekrarlı veritabanı taramalarına gerek yoktur. Büyük veri setleri için tercih edilen yöntemdir.

grid_view Eclat

Vertical veri formatını kullanır: her öğenin hangi işlemlerde geçtiğini küme kesişim işlemiyle hesaplar. Destek hesabı küme boyutuna göre O(1) amortize edilebilir. Orta ölçekli veritabanlarında verimli; çok büyük transaksiyonel veride bellek baskısı oluşturabilir.

apps Uygulama Alanları

  • check_circle E-ticaret ve Perakende: Amazon'un 'Bu ürünü alanlar şunları da aldı' öneri motoru, market raf düzeni optimizasyonu ve çapraz satış (cross-sell) stratejilerinde kullanılır.
  • check_circle Tıp ve İlaç Araştırmaları: Hastalık semptomları arasındaki ilişkileri bulmak, ilaç yan etki kombinasyonlarını keşfetmek ve tanı örüntülerini analiz etmek için kullanılır.
  • check_circle Siber Güvenlik: Ağ trafiğindeki anormal örüntüleri belirlemek, saldırı vektörlerini birlikte gerçekleşen olaylarla ilişkilendirmek ve saldırı sıralama örüntülerini keşfetmek için uygulanır.
  • check_circle Finans ve Bankacılık: Müşteri harcama örüntüleri analizi, dolandırıcılık tespiti ve ürün çapraz satışı (kredi kartı + sigorta paketleme gibi) için kullanılır.
  • check_circle Biyoinformatik: Gen ifadesi verilerinde birlikte aktifleşen genleri belirlemek, protein etkileşim ağlarını modellemek ve hastalık gen ilişkilerini keşfetmekte kullanılır.

quiz Sıkça Sorulan Sorular

  • check_circle Destek, güven ve lift değerleri nasıl yorumlanır?: Destek (≥0.01-0.05 tipik eşik), kuralın istatistiksel anlamlılığını sağlar. Güven (≥0.5-0.8 tipik), kuralın öngörücü gücünü gösterir. Lift >1 pozitif ilişkiyi, <1 negatif ilişkiyi, =1 bağımsızlığı ifade eder. Üç metrik birlikte değerlendirilmelidir.
  • check_circle Çok fazla kural üretilince ne yapılır?: Kural patlaması (rule explosion) yaygın bir sorundur. Minimum destek ve güven eşiklerini yükselterek kural sayısını azaltabilirsiniz. Alternatif olarak chi-kare testi, Fisher's exact test veya conviction metriği gibi istatistiksel filtreleme yöntemleri kullanılabilir.
  • check_circle Birliktelik kuralları nedensellik gösterir mi?: Hayır. Birliktelik kuralları yalnızca korelasyon gösterir, nedensellik değil. 'Ekmek alanlar tereyağı da alır' kuralı ekmek alımının tereyağı alımına neden olduğunu kanıtlamaz. Nedensellik analizi için Granger nedensellik, propensity score matching gibi ek yöntemler gerekir.
  • check_circle Apriori mi, FP-Growth mu kullanmalıyım?: Küçük-orta veritabanları ve prototipler için Apriori anlaşılırlığı sayesinde idealdir. Büyük veritabanları (>100K işlem) veya yüksek performans gerektiren üretim sistemleri için FP-Growth tercih edilir. Bellek kısıtlı ortamlarda Eclat da iyi bir alternatiftir.