tag FeatureEngineering
Bu sayfada FeatureEngineering etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.
Data wrangling (veri düzenleme ya da veri mücadelesi olarak da bilinir), ham ve dağınık veri kümelerini analiz ve makine öğrenimi modellerine uygun biçimde kullanılabilir hale getirmek amacıyla uygulanan temizleme, dönüştürme ve birleştirme sürecini ifade eder. Gerçek dünya verilerinin büyük çoğunluğu eksik değerler, yanlış biçimler, tutarsız kodlamalar ve aykırı gözlemler içerdiğinden bu süreç, başarılı bir veri bilimi projesinin temel taşını oluşturur. Data wrangling süreci tipik olarak birkaç kritik adımı kapsar. İlk adımda veriler farklı kaynaklardan (CSV dosyaları, API yanıtları, veritabanı sorguları, web scraping çıktıları) bir araya getirilir. Keşif aşamasında verinin genel yapısı, sütun türleri ve özet istatistikler incelenir; sorunlu alanlar tespit edilir. Temizleme adımında eksik değerler imputation yöntemleriyle doldurulur ya da ilgili satırlar çıkarılır, yinelenen kayıtlar kaldırılır, hatalı biçimler düzeltilir ve uç değerler ayıklanır. Dönüştürme aşamasında tarih-saat formatları standartlaştırılır, kategorik değişkenler one-hot encoding veya label encoding ile sayısallaştırılır ve sayısal sütunlar normalizasyon ya da standardizasyon ile ölçeklenir. Son olarak birden fazla tablo ya da kaynak JOIN/merge işlemleriyle birleştirilerek nihai analiz veri kümesi oluşturulur. Araştırmalar, veri bilimcilerin zamanının yaklaşık yüzde altmış ile seksen arasını modelleme ve görselleştirme yerine veri hazırlama adımlarına harcadığını ortaya koymaktadır. Python ekosisteminde Pandas ve Polars en yaygın kullanılan kütüphanelerdir. Büyük ölçekli projelerde Apache Spark veya dbt gibi araçlar tercih edilirken düşük kod araçları (OpenRefine, Alteryx, Trifacta) teknik geçmişi olmayan kullanıcılara da wrangling imkânı sunar. Makine öğrenimi bağlamında data wrangling, özellik mühendisliği (feature engineering) ile birlikte anılır; ancak ikisi farklı kavramlardır: wrangling ham veriyi temizleyip yapılandırır, feature engineering ise bu temiz veriden yeni anlamlı öznitelikler türetir. Temiz ve iyi yapılandırılmış veri olmadan hiçbir model istenen performansa ulaşamaz; bu nedenle data wrangling hem pratikte hem teoride yapay zeka projelerinin en kritik adımlarından biri olarak kabul edilir.