Graph Mining Nedir? Grafik Veri Madenciliği (Grafik Veri Madenciliği)

Graf yapılarındaki desenleri, toplulukları ve ilişkileri keşfetmek için uygulanan veri madenciliği tekniklerinin bütünü.

Graph Mining, düğümler (varlıklar) ve kenarlar (ilişkiler) ile temsil edilen graf yapısındaki gizli desenleri, toplulukları ve bilgileri keşfeden bir veri madenciliği alt dalıdır. Sosyal ağlar, biyolojik moleküler ağlar, bilgi grafları ve dolandırıcılık tespit sistemleri gibi birbirine bağlı veri kümelerinde kullanılır. Temel teknikler arasında sık geçen alt-graf madenciliği (gSpan, AGM), topluluk tespiti (Louvain, Girvan-Newman), bağlantı tahmini ve graf sınıflandırması yer alır. Modern yaklaşımlar GNN'leri entegre ederek Node2Vec ve GraphSAGE gibi yöntemlerle düğümleri yüksek boyutlu gömülü vektörlere dönüştürür. Facebook ve LinkedIn'de topluluk analizi, ilaç keşfinde protein-protein etkileşim ağları ve bankacılıkta işlem ağı tabanlı dolandırıcılık tespiti öne çıkan uygulama alanlarıdır.

Graf Veri Yapısı ve Temel Kavramlar

Graf, V düğümler (vertices) ve E kenarlar (edges) kümesinden oluşan matematiksel bir yapıdır: G = (V, E). Yönlü graflarda kenarlar tek yönlü ilişkileri (takip etme, atıf), yönsüz graflarda karşılıklı ilişkileri (arkadaşlık, bağlantı) temsil eder. Ağırlıklı graflarda kenar ağırlıkları ilişkinin gücünü (etkileşim sıklığı, mesafe) gösterir. Graph Mining bu yapılarda anlamlı alt-graflar, düğüm kümeleri ve bağlantı örüntüleri arar.

Temel Algoritmalar

**gSpan (2002):** DFS (derinlik öncelikli arama) kodu kullanarak sık geçen alt-grafları verimli biçimde madenciler; kimyasal bileşik veri tabanlarında geniş çaplı uygulamaları vardır. **Louvain Algoritması:** Topluluk tespiti için modülarite (Q) değerini optimize eder; milyarlarca düğümlü sosyal ağlarda O(n log n) hızıyla çalışır. **Girvan-Newman:** Kenar arasındalık değerini iteratif olarak kaldırarak hiyerarşik topluluklar oluşturur. **Node2Vec / DeepWalk:** Rastgele yürüyüşle örnekleme yaparak düğümleri düşük boyutlu vektör uzayına gömer.

GNN ile Modern Graf Madenciliği

Graph Neural Network'ler (GNN), komşu düğüm bilgisini mesaj geçişi (message passing) ile biriktirir ve her düğüm için bağlam-duyarlı gömmeler üretir. **GraphSAGE** örneklem tabanlı birleştirme ile devasa graflara ölçeklenir. **Graph Attention Network (GAT)** komşulara önem ağırlığı atayarak seçici bilgi aktarımı sağlar. Bu yöntemler ilaç-ilaç etkileşim tahmini, siber güvenlik anomali tespiti ve tavsiye sistemlerinde geleneksel graf madenciliğinin yerini almaktadır.

Uygulama Alanları

**Sosyal Ağ Analizi:** Facebook, Twitter ve LinkedIn'de topluluk tespiti, etki ajanı belirleme ve sahte hesap tespiti. **Biyoinformatik:** Protein-protein etkileşim (PPI) ağlarında işlev tahmini; SARS-CoV-2 gibi viral protein yapılarının analizi. **Bilgi Grafları:** Google, Wikidata ve Freebase'deki varlık ilişki sorgulama ve soru-cevap sistemleri. **Dolandırıcılık Tespiti:** Banka işlem ağlarında halka/kümeleşme tespiti ile kara para aklama zincirlerini ortaya çıkarma. **Akademik Ağlar:** Atıf graflarında etkili makaleleri ve araştırma topluluklarını belirleme.

Zorluklar ve Sınırlamalar

Graf izomorfizmi testi NP-tam olduğundan büyük graflarda tam eşleşme arama hesaplama açısından pahalıdır. Dinamik graflarda (anlık mesajlaşma gibi) kenarlar sürekli değişir, bu durum anlık madenciliği zorlaştırır. Gizlilik boyutunda sosyal ağ graflı verilerden kişisel bilgiler çıkarılabilir (deanonimizasyon riski). Ölçeklenebilirlik için Apache Spark GraphX, Google Pregel ve Neo4j gibi dağıtık graf hesaplama altyapıları kullanılır.