tag Deduplication

Bu sayfada Deduplication etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

link

Entity Resolution (Varlık Çözümleme)

Varlık çözümleme (Entity Resolution), farklı veri kaynaklarında yer alan kayıtların aynı gerçek-dünya nesnesine ait olup olmadığını tespit eden ve bu kayıtları birleştiren veri entegrasyon sürecidir. "Record linkage" (kayıt bağlama), "entity matching" (varlık eşleştirme) veya "deduplication" (tekilleştirme) olarak da bilinen bu disiplin, büyük veri yönetimi ile bilgi grafiklerinin temel taşlarından birini oluşturur. Farklı sistemlerden gelen "Ali Veli", "A. Veli" ve "ali.veli@firma.com" gibi kayıtların aynı kişiyi temsil ettiğini, ya da iki ayrı ürün kataloğundaki "iPhone 15 Pro 256GB" ile "Apple iPhone 15Pro" girişlerinin aynı ürünü ifade ettiğini otomatik olarak anlamak, varlık çözümlemenin en yaygın kullanım senaryolarıdır. Süreç üç temel adımda ilerler. İlk adım olan "blocking" (engelleme) aşamasında, tüm olası çift kombinasyonlarını karşılaştırmak yerine yalnızca büyük olasılıkla eşleşecek kayıtlar bir araya getirilir; bu, hesaplama maliyetini dramatik biçimde düşürür. İkinci adımda, seçilen kayıt çiftleri arasındaki benzerlik ölçülür. Bu amaçla Jaccard benzerliği, Levenshtein mesafesi (düzenleme mesafesi) veya makine öğrenimi modelleri kullanılır. Son adımda sınıflandırma yapılarak iki kaydın aynı varlığa mı yoksa farklı varlıklara mı ait olduğu karara bağlanır. Derin öğrenme çağıyla birlikte BERT tabanlı modeller, anlamsal benzerliği değerlendirip yazım hataları, kısaltmalar ve farklı biçimlendirmeler gibi zorluklara karşı çok daha dayanıklı sonuçlar üretmektedir. DeepMatcher, Ditto ve Unicorn bu alanda öne çıkan açık kaynak araçlar arasındadır. Uygulama alanları oldukça geniştir: müşteri veri yönetimi (MDM), sağlık sektöründe hasta kaydı birleştirme, finansal işlemlerde dolandırıcılık tespiti, e-ticarette ürün kataloğu normalizasyonu ve Wikidata gibi bilgi grafiklerinin zenginleştirilmesi bu kapsamda değerlendirilebilir.

arrow_forward