Data Lineage Nedir?
Data lineage (veri kökeni), bir verinin yaşam döngüsü boyunca kaynaktan hedefe nasıl aktığını, hangi dönüşüm adımlarından geçtiğini ve hangi sistemleri etkilediğini belgeleyen veri yönetimi pratiğidir. Ham kaynaklardan başlayarak ETL süreçleri, veritabanı dönüşümleri ve makine öğrenmesi ardışık düzenleri boyunca son model çıktısına kadar her veri hareketi kayıt altına alınır. Bu izleme, veri mühendisleri ve veri bilimcilerinin karmaşık veri ekosistemlerinde kökenden itibaren her adımı görselleştirmesine ve denetlemesine olanak tanır.
İki Temel İzleme Yönü
Data lineage iki yönde çalışır: **Geriye doğru lineage (Backward Lineage):** Bir verinin kökünü ortaya çıkarır. "Bu özellik değeri nereden geldi? Hangi dönüşümler uygulandı?" sorularını yanıtlar. Model hata ayıklama ve veri kalitesi sorunlarını tespit etmede kritiktir. **İleriye doğru lineage (Forward Lineage):** Bir verinin hangi aşağı akış sistemlerini etkilediğini gösterir. "Bu kaynak tabloyu değiştirsem hangi modeller veya raporlar etkilenir?" sorusuna cevap verir. Şema değişikliği öncesi etki analizi için vazgeçilmezdir. Lineage grafikleri yönlendirilmiş asiklik graflar (DAG) olarak temsil edilir: düğümler veri varlıklarını (tablo, dosya, özellik, model), kenarlar ise dönüşüm ilişkilerini gösterir.
AI/ML'de Neden Kritiktir?
Makine öğrenmesi bağlamında data lineage üç temel alanda değer üretir: **Model provenance:** Hangi eğitim verisinin hangi model sürümünü ürettiğini izlemek, modellerin yeniden oluşturulabilirliğini ve denetlenebilirliğini sağlar. Bir modelin performansı düştüğünde lineage kaydı sayesinde değişen kaynak veya dönüşüm adımı hızla bulunabilir. **Özellik mühendisliği takibi:** Ham veri kaynaklarından türetilen özelliklerin hesaplama mantığı, lineage grafiğinde bir DAG düğümü olarak kayıt altına alınır. Bu sayede özellik deposundaki her vektör kaynağına izlenebilir. **Düzenleyici uyumluluk:** GDPR Madde 5 kapsamındaki hesap verebilirlik ilkesi, kişisel verilerin nerede saklandığını ve nasıl işlendiğini belgelemeyi gerektirir. Lineage, unutulma hakkı taleplerinde ilgili tüm sistemleri otomatik olarak tespit etmeye yarar.
Popüler Araçlar ve Standartlar
**OpenLineage:** Linux Foundation bünyesinde 2021 yılında oluşturulan açık metadata standardıdır. Lineage bilgisinin nasıl yakalanıp paylaşılacağını belirleyerek farklı araçlar arasında birlikte çalışabilirlik sağlar. **Apache Atlas:** Hadoop ekosisteminin metadata deposu (2015). Hive, Spark ve HDFS için lineage takibini destekler. **DataHub:** LinkedIn tarafından açık kaynak olarak geliştirilen modern metadata platformudur. GraphQL API ve web arayüzüyle lineage sorgulama ve veri keşfini birleştirir. **dbt Lineage:** Modern veri yığınlarında yaygın kullanılan dbt aracı, SQL dönüşümleri için doğal lineage takibi ve DAG görselleştirmesi sunar. **Marquez:** Açık kaynak metadata servisi; REST API ve web arayüzü ile hafif entegrasyon imkânı sağlar.
Granülarite Seviyeleri
Lineage izleme üç farklı ayrıntı seviyesinde gerçekleştirilebilir: **Süreç düzeyi:** İşler ve iş akışları arasındaki bağımlılıklar (en genel seviye). ETL pipeline'ının hangi kaynaklardan beslendiği gibi. **Tablo/dosya düzeyi:** Kaynak ve hedef tablolar arasındaki ilişkiler. En yaygın kullanılan orta seviyedir. **Sütun düzeyi:** En ayrıntılı izleme biçimidir; hangi kaynak sütunun hangi hedef sütunu oluşturduğunu gösterir. GDPR kapsamındaki kişisel veri takibinde ve özellik mühendisliğinde tercih edilir.