Graf Veri Yapısı ve Temel Kavramlar
Graf, V düğümler (vertices) ve E kenarlar (edges) kümesinden oluşan matematiksel bir yapıdır: G = (V, E). Yönlü graflarda kenarlar tek yönlü ilişkileri (takip etme, atıf), yönsüz graflarda karşılıklı ilişkileri (arkadaşlık, bağlantı) temsil eder. Ağırlıklı graflarda kenar ağırlıkları ilişkinin gücünü (etkileşim sıklığı, mesafe) gösterir. Graph Mining bu yapılarda anlamlı alt-graflar, düğüm kümeleri ve bağlantı örüntüleri arar.
Temel Algoritmalar
**gSpan (2002):** DFS (derinlik öncelikli arama) kodu kullanarak sık geçen alt-grafları verimli biçimde madenciler; kimyasal bileşik veri tabanlarında geniş çaplı uygulamaları vardır. **Louvain Algoritması:** Topluluk tespiti için modülarite (Q) değerini optimize eder; milyarlarca düğümlü sosyal ağlarda O(n log n) hızıyla çalışır. **Girvan-Newman:** Kenar arasındalık değerini iteratif olarak kaldırarak hiyerarşik topluluklar oluşturur. **Node2Vec / DeepWalk:** Rastgele yürüyüşle örnekleme yaparak düğümleri düşük boyutlu vektör uzayına gömer.
GNN ile Modern Graf Madenciliği
Graph Neural Network'ler (GNN), komşu düğüm bilgisini mesaj geçişi (message passing) ile biriktirir ve her düğüm için bağlam-duyarlı gömmeler üretir. **GraphSAGE** örneklem tabanlı birleştirme ile devasa graflara ölçeklenir. **Graph Attention Network (GAT)** komşulara önem ağırlığı atayarak seçici bilgi aktarımı sağlar. Bu yöntemler ilaç-ilaç etkileşim tahmini, siber güvenlik anomali tespiti ve tavsiye sistemlerinde geleneksel graf madenciliğinin yerini almaktadır.
Uygulama Alanları
**Sosyal Ağ Analizi:** Facebook, Twitter ve LinkedIn'de topluluk tespiti, etki ajanı belirleme ve sahte hesap tespiti. **Biyoinformatik:** Protein-protein etkileşim (PPI) ağlarında işlev tahmini; SARS-CoV-2 gibi viral protein yapılarının analizi. **Bilgi Grafları:** Google, Wikidata ve Freebase'deki varlık ilişki sorgulama ve soru-cevap sistemleri. **Dolandırıcılık Tespiti:** Banka işlem ağlarında halka/kümeleşme tespiti ile kara para aklama zincirlerini ortaya çıkarma. **Akademik Ağlar:** Atıf graflarında etkili makaleleri ve araştırma topluluklarını belirleme.
Zorluklar ve Sınırlamalar
Graf izomorfizmi testi NP-tam olduğundan büyük graflarda tam eşleşme arama hesaplama açısından pahalıdır. Dinamik graflarda (anlık mesajlaşma gibi) kenarlar sürekli değişir, bu durum anlık madenciliği zorlaştırır. Gizlilik boyutunda sosyal ağ graflı verilerden kişisel bilgiler çıkarılabilir (deanonimizasyon riski). Ölçeklenebilirlik için Apache Spark GraphX, Google Pregel ve Neo4j gibi dağıtık graf hesaplama altyapıları kullanılır.