Tanım ve Temel Kavramlar
Dizi madenciliği, sıralı işlem kayıtlarından (event log, kullanıcı oturumu, DNA dizisi) minimum destek (min-support) eşiğini aşan alt dizileri bulan bir veri madenciliği tekniğidir. Bir sıra (sequence), zaman damgalı olay listelerinden oluşur; alt dizi (subsequence) ise bu listenin göreceli sırasını koruyan herhangi bir parçasıdır. Apriori prensibine göre sık bir alt dizinin tüm alt kümeleri de sıktır; bu özellik arama uzayını budamaya yarar.
Başlıca Algoritmalar
GSP (Generalized Sequential Patterns, 1995): İlk büyük ölçekli dizi madenciliği algoritması; çok sayıda veritabanı taraması gerektirir. SPADE (2001): Dikey veri formatında bellekte işlem yapar, tarama sayısını üçe indirir. PrefixSpan (2001): Önek büyütme (prefix-growth) yaklaşımıyla tek tarama yapar ve en hızlı genel-amaçlı algoritma sayılır. SPAM (2002): Bit vektörü gösterimi ile büyük veri setlerinde hız avantajı sağlar.
Uygulama Alanları
E-ticaret: Müşteri satın alma sıralarındaki örüntüler (A sonra B sonra C ürün dizisi) ile kişiselleştirilmiş öneri sistemleri. Web analizi: Tıklama akışı (clickstream) verilerinden sayfalar arası gezinme örüntülerinin çıkarımı. Genomik: DNA ve protein dizilerindeki biyolojik örüntülerin keşfi. Telekomünikasyon: Çağrı kayıtlarında anormal kullanım davranışlarının tespiti. Sağlık: Hasta tedavi süreçlerindeki olay sıralarından klinik örüntü çıkarımı.
Birliktelik Kural Madenciliği ile Farkı
Dizi madenciliği, birliktelik kural madenciliğinin (association rule mining) sıralı versiyonudur. Market basket analysis gibi birliktelik madenciliği sıra dikkate almadan birlikte satın alınan ürünleri ararken, dizi madenciliği "A satın alındıktan sonra B, ardından C" gibi sıralı örüntülere odaklanır. Metin madenciliği ve bilgi çıkarma ile birleştirildiğinde doğal dil işleme uygulamalarına da destek sağlar.