Data Lake (Veri Gölü)
Data Lake, yapılandırılmış, yarı yapılandırılmamış ve yapılandırılmamış verilerin orijinal ham formatlarında depolandığı merkezi, ölçeklenebilir bir büyük veri deposudur. Geleneksel veri ambarlarının aksine, Data Lake veriye önceden bir şema uygulamaz; veriler ham hâlde saklanır ve sorgu anında şema belirlenir (schema-on-read yaklaşımı). Bu esneklik sayesinde log dosyaları, görüntüler, videolar, sensör verileri ve JSON/CSV gibi farklı formatlardaki veriler aynı depoda bir arada tutulabilir.
"Data Lake" kavramı ilk olarak 2010 yılında Pentaho'nun CTO'su James Dixon tarafından kavramsallaştırılmıştır. Dixon, veri ambarlarını sunum için hazır su şişeleriyle kıyaslarken Data Lake'i kendi doğal ve safiyetini koruyan bir göle benzetti: tüm su kaynakları (veriler) doğal hâlde bu göle akar ve kullanıcılar ihtiyaçlarına göre bu gölden istedikleri miktarda ve formatta su alır.
Bir Data Lake mimarisi genellikle birkaç katmandan oluşur. Ham veri bölgesi (Raw/Landing Zone), kaynak sistemlerden gelen verilerin doğrudan aktarıldığı, hiçbir dönüşüm yapılmadan saklandığı alandır. Rafine veri bölgesi (Curated Zone), temizleme, dönüştürme ve kalite kontrolünden geçirilmiş verileri barındırır. Tüketim bölgesi (Consumption Zone) ise iş analistleri, veri bilimciler ve makine öğrenmesi uygulamaları tarafından kullanıma hazır hâle getirilmiş verileri içerir.
Data Lake'in başlıca avantajları arasında yüksek ölçeklenebilirlik, düşük birim depolama maliyeti ve veri formatı esnekliği sayılabilir. Ancak yeterli yönetim ve kataloglama araçları olmadığında "Data Swamp" (veri bataklığı) hâline gelebilir: verinin nereden geldiği, ne anlama geldiği ve nasıl kullanılacağı belirsizleşir. Bu sorunu çözmek için veri kataloğu (data catalog), veri soyu takibi (data lineage) ve meta veri yönetimi araçları kullanılır.
Günümüzde AWS S3 + Glue, Azure Data Lake Storage Gen2, Google Cloud Storage ve Apache Hadoop HDFS popüler Data Lake altyapılarıdır. Modern Delta Lake, Apache Iceberg ve Apache Hudi açık tablo formatları ise ACID işlem desteği ve şema evrimi ekleyerek Data Lake ile Data Warehouse özelliklerini "Lakehouse" mimarisinde birleştirir; bu sayede hem ham veri depolama hem de güvenilir sorgu kapasitesi aynı platformda sağlanır.