Data Quality (Veri Kalitesi)
Veri kalitesi (Data Quality), bir veri kümesinin belirli bir kullanım amacı için ne derece uygun olduğunu ifade eden çok boyutlu bir kavramdır. Yapay zeka, makine öğrenimi ve veri madenciliği projelerinde, veri kalitesi modelin ne kadar doğru ve güvenilir sonuç üreteceğini belirleyen temel etkendir.
Veri kalitesi altı standart boyutla ölçülür. Doğruluk (accuracy), veri değerlerinin gerçek dünyadaki durumu yansıtıp yansıtmadığını ölçer. Tamlık (completeness), gerekli alanların eksiksiz biçimde dolu olup olmadığını denetler. Tutarlılık (consistency), aynı verinin farklı sistemler veya tablolar arasında çelişip çelişmediğini kontrol eder. Zamansallık (timeliness), verinin analiz amacına yetecek kadar güncel olup olmadığını sorgular. Geçerlilik (validity), verilerin tanımlanmış iş kurallarına ve formatlara uygunluğunu belirler. Benzersizlik (uniqueness) ise yinelenen kayıtları tespit eder.
Sektörde yerleşik olan 'Çöp içeri, çöp dışarı' (Garbage In, Garbage Out) ilkesi, veri kalitesinin modeller üzerindeki doğrudan etkisini özetler. Hatalı veya eksik verilerle eğitilen bir yapay zeka modeli, gerçek dünya koşullarında güvenilmez tahminler üretir. Araştırmalar, veri bilimcilerinin zamanının yüzde altmış ila seksenini veri temizleme ve kalite iyileştirmeye ayırdığını ortaya koymaktadır.
Veri kalitesini ölçmek ve artırmak için kullanılan başlıca araçlar arasında Great Expectations, dbt testleri, Apache Soda ve Pandas Profiling yer almaktadır. Bu araçlar veri boru hatlarına (pipeline) entegre edilerek kalite sorunlarını anlık raporlar ve anomalileri uyarı sistemlerine bildirir. Üretim ortamlarında sürekli veri kalitesi izleme (data quality monitoring), sapmalar gerçekleşir gerçekleşmez mühendis ekipleri uyarır.
Regülasyon boyutunda AB Yapay Zeka Yasası (AI Act) Madde 10, yüksek riskli yapay zeka sistemlerinde veri yönetim uygulamalarını ve kalite metriklerini belgelemeyi yasal yükümlülük haline getirmiştir. ISO/IEC 25012 standardı da veri kalitesi özelliklerini sistematik biçimde tanımlar. Bu nedenle veri kalitesi artık yalnızca teknik bir uygulama değil, kurumsal yönetişim ve uyum çerçevelerinin ayrılmaz bir parçasıdır.