Veri Ambarı (Data Warehouse) Nedir? ETL, OLAP Rehberi

Veri Ambarı Nedir ve OLTP'den Farkı?

Veri Ambarı, kökeni 1990'lara uzanan ve günümüzde bulut platformlarında petabayt ölçeğine ulaşan bir analitik veri deposudur. Günlük işlem veritabanları (OLTP), hızlı okuma-yazma için optimize edilmiştir: bir bankacılık uygulamasında hesap bakiyesi güncelleme ya da e-ticarette sipariş oluşturma bu türdendir. Veri ambarı ise tam tersi bir felsefeyle kurulur; yazma nadirdir, okuma karmaşık ve toplu sorgularla gerçekleşir. 'Geçen yıl Avrupa'da en çok satan ürün kategorisi neydi?' veya 'Hangi müşteri segmenti son 5 yılda en yüksek değeri yarattı?' gibi sorular veri ambarının cevaplamak için tasarlandığı sorulardır. Bu ayrım, şema tasarımını, indeks stratejisini ve donanım seçimini doğrudan etkiler.

Dört Temel Özellik (Bill Inmon Modeli)

Konu Odaklı

Müşteri, ürün, satış gibi iş konuları etrafında organize edilir; teknik sistem yapısına göre değil.

Entegre

CRM, ERP, web analytics gibi farklı kaynaklardan gelen veriler tutarlı bir formatta birleştirilir.

Değişmez

Yüklenen veriler güncellenmez; tarihsel kayıtlar silinmez. Yalnızca yeni satırlar eklenir.

Zaman Serili

Her kayıt bir zaman damgasıyla ilişkilendirilir; yıllar öncesine ait trend analizleri mümkündür.

ETL Süreci: Verinin Ambara Yolculuğu

ETL (Extract, Transform, Load) veri ambarının can damarıdır. Extract aşamasında veriler kaynak sistemlerden (veritabanları, API'lar, dosyalar) çekilir. Transform aşamasında veri temizlenir, eksik değerler doldurulur, kodlamalar normalize edilir ve hedef şemaya uyarlanır. Load aşamasında işlenmiş veri ambar tablolarına eklenir. Modern platformlarda ELT yaklaşımı giderek yaygınlaşmaktadır: ham veri önce merkezi depoya alınır (örneğin BigQuery veya Snowflake), ardından SQL tabanlı dönüşümler doğrudan platformun içinde çalıştırılır — bu, bulut platformlarının ölçeklenebilir işlem kapasitesinden yararlanmayı sağlar. dbt (data build tool) bu ELT dönüşümlerini versiyon kontrollü, test edilebilir SQL dönüşümlerine dönüştüren en popüler araçtır.

Popüler Veri Ambarı Platformları

check_circle Amazon Redshift: AWS ekosisteminde sütun tabanlı MPP mimarisi. S3 ile sıkı entegrasyon; veri gölü sorguları için Redshift Spectrum özelliği mevcuttur.
check_circle Google BigQuery: Sunucusuz (serverless) mimari; tablo yönetimi gerektirmez. Kullanım başına ücretlendirme ve makine öğrenimi için BigQuery ML desteği sunar.
check_circle Snowflake: Çoklu bulut desteği (AWS, Azure, GCP). Hesap ve depolama katmanlarını ayıran mimarisi sayesinde farklı iş yüklerini birbirinden bağımsız ölçeklendirme imkânı tanır.
check_circle Microsoft Azure Synapse Analytics: Azure ortamında hem adanmış hem de sunucusuz SQL havuzları. Power BI entegrasyonu ile görselleştirme iş akışlarını hızlandırır.
check_circle Apache Hive / Databricks Lakehouse: Açık kaynak Data Lakehouse yaklaşımı; Delta Lake formatıyla ACID garantisi sağlar, ML iş yükleriyle veri ambarını aynı platformda birleştirir.

Veri Ambarı ve Yapay Zeka

Veri ambarları, makine öğrenimi projelerinin kritik veri kaynağıdır. Model eğitimi için tarihsel ve temizlenmiş veri sağlarlar; özellik mühendisliği süreçlerinde feature store olarak kullanılırlar; A/B test sonuçlarını depolamak ve model performansını izlemek için temel analitik altyapıyı oluştururlar. Özellikle MLOps boru hatlarında 'feature store' kavramı — modelin ihtiyaç duyduğu özelliklerin gerçek zamanlı olarak sunulması — veri ambarlarının genişletilmiş bir işlevi olarak ortaya çıkmaktadır. Büyük dil modellerinin (LLM) ince ayarı (fine-tuning) ve eğitim veri setlerinin yönetimi de giderek daha fazla veri ambarı altyapısına dayanmaktadır.

Sıkça Sorulan Sorular

check_circle Veri Ambarı ile Data Lake arasındaki temel fark nedir?: Veri Ambarı yapılandırılmış veriyi şema önce (schema-on-write) yaklaşımıyla depolar; Data Lake ise ham veriyi herhangi bir formatta (yapılandırılmış, yarı yapılandırılmış, yapılandırılmamış) alır, şema sorgulama anında belirlenir (schema-on-read). Veri ambarları analitik performans için optimize edilmişken Data Lake daha esnek ve ucuzdur ancak veri kalitesi yönetimi daha zordur. Modern 'Lakehouse' mimarisi her ikisinin avantajlarını birleştirmeyi hedefler.
check_circle Veri Ambarı ne zaman kullanılmalı?: Tekrarlayan, karmaşık analitik sorgular çalıştırmak, tutarlı raporlar üretmek veya iş zekası araçlarına (BI) veri sağlamak gerektiğinde. Birden fazla operasyonel sistemin verilerini birleştirmeniz ve tarihsel trend analizi yapmanız gerekiyorsa veri ambarı doğru seçimdir. Gerçek zamanlı veri işleme ya da ham log depolama için veri ambarı yetersiz kalabilir.
check_circle ETL ile ELT arasındaki fark nedir?: ETL'de dönüşüm, verinin hedefe yüklenmesinden önce ayrı bir ortamda (ETL sunucusu) gerçekleşir. ELT'de ise ham veri önce bulut veri ambarına yüklenir, ardından ambarın kendi işlem kapasitesi kullanılarak SQL ile dönüşüm yapılır. Bulut platformlarının güçlü hesap kapasitesi sayesinde ELT, özellikle büyük ölçekli projelerde giderek daha fazla tercih edilmektedir.
check_circle Dimensional Modeling (Boyutsal Modelleme) nedir?: Ralph Kimball tarafından geliştirilen ve veri ambarı için en yaygın şema tasarım yöntemidir. Merkezdeki 'fact table' (olgu tablosu) sayısal iş ölçütlerini (satış tutarı, sipariş sayısı) içerirken etrafındaki 'dimension table'lar (boyut tabloları) bağlamsal verileri (müşteri, ürün, zaman, konum) depolar. Bu yapıya yıldız şema (star schema) adı verilir; boyut tablolarının normalleştirilmesi durumunda kar tanesi şema (snowflake schema) oluşur.