tag VeriMühendisliği

Bu sayfada VeriMühendisliği etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

sync_alt

ETL (ETL (Extract, Transform, Load))

ETL (Extract, Transform, Load — Çıkar, Dönüştür, Yükle), farklı kaynak sistemlerden ham verinin toplanıp temizlenerek analitik bir hedefe aktarılmasını sağlayan veri entegrasyon sürecidir. Her veri mühendisliği ve veri ambarı projesinin omurgasını oluşturur; kaliteli veriyi olmayan hiçbir makine öğrenimi modeli ya da iş zekası raporu başarılı olamaz. Extract (Çıkarma) aşamasında veri; ilişkisel veritabanları, REST API'ları, dosya sistemleri (CSV, JSON, XML, Parquet), akış platformları (Kafka, Kinesis) veya SaaS uygulamalarından ham biçimde çekilir. Transform (Dönüştürme) aşamasında bu ham veri; temizlenir (eksik ve tutarsız değerler giderilir), normalize edilir (farklı kaynaklardaki kodlamalar birleştirilir), zenginleştirilir (dış referans tablolarıyla birleştirilir) ve hedef şemaya dönüştürülür. Load (Yükleme) aşamasında ise işlenmiş veri; veri ambarı, veri gölü veya analitik veritabanına yazılır. Modern mimarilerde ETL'nin yerini giderek ELT (Extract, Load, Transform) alıyor: ham veri önce bulut veri ambarına yükleniyor (Amazon Redshift, Google BigQuery, Snowflake), ardından dönüşümler SQL veya dbt (data build tool) aracılığıyla doğrudan hedefteki güçlü işlem kapasitesiyle gerçekleştiriliyor. Bu yaklaşım hem maliyet hem de sürdürülebilirlik açısından avantajlıdır. Makine öğrenimi hattında ETL, feature store'ları besleyen ve model eğitimi için veri setleri hazırlayan kritik bileşendir. Yaygın ETL araçları arasında Apache Airflow, dbt, Apache Spark, Fivetran, Talend ve AWS Glue sayılabilir. Büyük ölçekli sistemlerde mikro-toplu (micro-batch) ve akış (streaming) ETL da standart pratikler arasındadır.

arrow_forward