Veri Tekilleştirme (Data Deduplication) (Veri Tekilleştirme)

#veri-madenciligi #veri-kalitesi #makine-ogrenimi #llm #deduplication

Veri kümelerindeki yinelenen kayıtları otomatik olarak tespit edip kaldıran veri madenciliği tekniği.

Veri tekilleştirme (data deduplication), bir veri kümesindeki yinelenen ya da tekrarlayan kayıtları tanımlayıp kaldıran veri madenciliği sürecidir. Aynı varlığı temsil eden birden fazla kayıt; farklı yazım biçimleri, eksik alanlar veya biçim tutarsızlıkları nedeniyle ortaya çıkabilir. Bu yinelemeler analiz kalitesini düşürür, makine öğrenmesi modellerini yanıltır ve depolama maliyetlerini artırır. Tam eşleşme tespiti (exact match) basit hashing yöntemleriyle yapılır; MinHash ve SimHash algoritmaları ise yakın-yineleme (near-duplicate) tespitinde büyük veri kümelerinde verimli çalışır. Kayıt bağlama (record linkage) tekniği, farklı kaynaklardaki kayıtları blok yöntemi veya sıralı komşuluk algoritması ile karşılaştırarak ikinci dereceden karmaşıklığı azaltır. Makine öğrenmesi tabanlı yaklaşımlar — SVM, Karar Ağacı, Random Forest ve derin öğrenme modelleri — klasik yöntemleri geride bırakmaktadır. Denetimli algoritmalar etiketli eğitim verisiyle yüksek hassasiyette yineleme tespiti yaparken, derin öğrenme modelleri metin, görsel ve yapısal veriler üzerinde özellik öğrenimi yaparak karmaşık benzerlikleri de yakalayabilir. LLM eğitim verilerinin hazırlanmasında veri tekilleştirme kritik bir adım haline gelmiştir: yinelenen belgeler modeli ezberlemeye yönlendirir ve genelleme yeteneğini azaltır. C4, The Pile ve FineWeb gibi büyük veri kümelerinde MinHash tabanlı tekilleştirme standart bir ön işleme adımı olarak uygulanmaktadır.

Temel Kavramlar

Veri tekilleştirme, aynı gerçek dünya varlığını temsil eden birden fazla kaydı (yineleme) bulup birleştirme ya da kaldırma işlemidir. Yinelemeler; farklı kaynaklardan veri birleştirildiğinde, veri girişi hatalarında veya format farklılıklarından kaynaklanabilir. Tekilleştirme iki kategoride ele alınır: tam eşleşme (exact duplicate) ve yakın-yineleme (near-duplicate). Tam eşleşmeler basit hashing ile kolayca tespit edilirken, yakın-yinelemeler daha gelişmiş benzerlik ölçütleri gerektirir.

Temel Teknikler

MinHash ve Locality-Sensitive Hashing (LSH), büyük veri kümelerinde yakın-yinelemeleri verimli biçimde bulmak için kullanılan olasılıksal yöntemlerdir. Blocking ve sorted neighbourhood gibi kayıt bağlama teknikleri, karşılaştırma uzayını daraltarak O(n²) karmaşıklığını önemli ölçüde düşürür. TF-IDF vektörleri ve kosinüs benzerliği, metin tabanlı kayıtların benzerlik ölçümünde yaygın biçimde kullanılır. Edit distance (Levenshtein) gibi string metrik yöntemleri ise küçük yazım farklılıklarını yakalamak için tercih edilir.

ML Tabanlı Yaklaşımlar

Makine öğrenmesi, özellikle belirsiz (fuzzy) yinelemelerin tespitinde geleneksel yöntemlerin sınırlarını aşar. Denetimli öğrenme modelleri (SVM, Random Forest, Gradient Boosting) etiketli kayıt çiftleri üzerinde eğitilerek yüksek hassasiyet ve geri çağırma değerlerine ulaşır. Derin öğrenme tabanlı yaklaşımlar ise Siamese Network mimarileri aracılığıyla kayıt çiftleri arasındaki anlam düzeyinde benzerliği ölçebilir. Semi-supervised ve active learning yöntemleri, etiketleme maliyetini azaltırken model doğruluğunu korumaya yardımcı olur.

LLM Eğitiminde Rolü

Büyük dil modellerinin (LLM) eğitim verilerinin kalitesi doğrudan model performansını etkiler. Yinelenen belgelerin varlığı modelin belirli kalıpları ezberleme riskini artırır ve çeşitliliği azaltır. GPT, LLaMA, Mistral gibi modellerin eğitiminde kullanılan C4, The Pile, FineWeb ve RedPajama veri kümelerinde MinHash tabanlı tekilleştirme standart bir ön işleme adımıdır. Araştırmalar, agresif tekilleştirmenin model kalitesini artırdığını ve aşırı öğrenmeyi (overfitting) azalttığını göstermektedir.

Kullanım Alanları

Veri tekilleştirme; e-ticaret ürün katalogları, müşteri veri tabanları, tıbbi kayıt sistemleri, kütüphane katalogları ve araştırma veri setlerinde yaygın biçimde uygulanır. Bulut depolama sistemlerinde tekilleştirme, aynı dosyanın birden fazla kez saklanmasını önleyerek depolama maliyetlerini %50-90 oranında azaltabilir. Arama motorlarında içerik tekilleştirmesi, kaliteli ve özgün sonuçların öne çıkarılmasını sağlar. Sosyal medya platformları ise spam tespiti ve kopyalanan içeriklerin filtrelenmesi için bu teknikleri kullanır.