tag aykırı-değer
Keşifsel Veri Analizi (EDA) (EDA)
Bu sayfada aykırı-değer (Keşifsel Veri Analizi (EDA) (EDA)) etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.
Keşifsel Veri Analizi (Exploratory Data Analysis, EDA), ham veriden anlam çıkarmanın ilk ve en kritik adımıdır. John Tukey'in 1977'de kaleme aldığı aynı adlı eseriyle sistematik bir disiplin hâline gelen EDA, veri bilimcilerin bir veri kümesini modellemeden veya hipotez testine sokmadan önce derinlemesine incelediği keşifsel süreçtir. EDA'nın temel amacı şu soruları yanıtlamaktır: Veri nasıl dağılmış? Hangi değişkenler birbiriyle ilişkili? Aykırı değerler (outlier) var mı ve bunlar gerçek mi yoksa veri giriş hatası mı? Eksik değerler (missing values) hangi örüntüde oluşmuş? Hangi özellikler hedef değişkeni en çok etkiliyor? Bu soruları yanıtlamak için EDA iki temel yöntem sınıfına başvurur. Nicel yöntemler arasında merkezi eğilim ölçüleri (ortalama, medyan, mod), yayılım ölçüleri (standart sapma, varyans, çeyrekler arası aralık), çarpıklık ve basıklık katsayıları yer alır. Nitel/görsel yöntemler ise histogram, kutu grafiği (box plot), yoğunluk grafiği, dağılım matrisi (pair plot) ve korelasyon ısı haritası gibi araçlarla veriyi sezgisel biçimde anlaşılır kılar. Modern veri bilimi ekosisteminde EDA, Python'da Pandas, NumPy, Matplotlib, Seaborn ve Plotly kütüphaneleriyle; R'de ggplot2 ve dplyr ile yürütülür. Pandas Profiling ve ydata-profiling gibi otomatik EDA araçları tek bir komutla kapsamlı raporlar üretir. AutoEDA yaklaşımları büyük veri kümelerinde zaman tasarrufu sağlasa da deneyimli bir veri bilimcinin yorumunun yerini alamaz. EDA, özellik mühendisliği (feature engineering), veri temizleme ve model seçimi kararları üzerinde doğrudan etkilidir. Kötü anlaşılmış veriyle kurulan modeller ne kadar sofistike olursa olsun güvenilmez sonuçlar üretir; bu nedenle EDA 'çöp girer, çöp çıkar' ilkesinin pratikte uygulandığı kalkan katmanıdır.