tag DVC

Bu sayfada DVC etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.

Data versioning (veri versiyonlama), makine öğrenmesi ve veri bilimi projelerinde kullanılan veri kümelerini, modelleri ve deneyleri Git'e benzer şekilde izleyen bir sürüm kontrol yöntemidir. Geleneksel yazılım geliştirmede kod değişiklikleri Git ile takip edilirken makine öğrenmesi projelerinde veri kümelerinin de aynı titizlikle yönetilmesi kritik önem taşır. Bir model eğitiminde hangi veri setinin kullanıldığını bilmeden deneyler tekrarlanamaz, performans regresyonlarının kaynağı tespit edilemez ve model denetim (audit) süreçleri güvenilir biçimde yürütülemez. 'Aynı kod, aynı veri sürümü, aynı sonuç' prensibi olarak da tanımlanan tam yeniden üretilebilirlik (full reproducibility), MLOps olgunluk modelinin temel gereksinimlerinden biridir. Bu alandaki en yaygın araç DVC (Data Version Control) olup açık kaynaklı bir proje olarak Git ile entegre çalışır: büyük veri dosyalarını Amazon S3, Google Cloud Storage veya Azure Blob gibi uzak depolara yükler, Git reposunda ise yalnızca küçük birer meta-dosya (pointer) tutar. Kasım 2025'te lakeFS tarafından satın alınan DVC, veri göllerinde Git tarzı dallanma, commit ve merge işlemlerine olanak tanıyan lakeFS mimarisiyle birleşmeye başlamıştır. Versiyon yönetimi yalnızca ham veri ile sınırlı kalmaz; dönüştürülmüş veri kümeleri, model ağırlıkları ve deney konfigürasyonları (hiperparametreler, rastgele tohum değerleri) de kapsama dahil edilir. Delta Lake ve Apache Iceberg ise veri gölü ve veri ambarı ortamlarında tablo düzeyinde ACID uyumlu versiyonlama, anlık görüntü (snapshot) alımı ve zaman yolculuğu sorguları (time travel query) sunarak data versioning'i kurumsal ölçekte uygulanabilir kılar. MLOps boru hatlarında data versioning şu görevleri üstlenir: her model eğitim koşusu için kullanılan veri sürümünü otomatik olarak kaydeder, model kayıt defteri (model registry) ile veri sürümü arasında birebir ilişki kurar, regresyon testlerinde referans veri setlerini sabitler ve AB testi koşullarını izole eder. Bu nedenle data versioning, üretime alınan yapay zeka sistemlerinde hem güvenilirlik hem de uyumluluk (compliance) gereksinimlerini karşılamak için vazgeçilmez bir bileşen haline gelmiştir.

manage_history

Data Versioning Nedir? Makine Öğrenmesinde Veri Versiyonlama (Veri Versiyonlama)

Data versioning (veri versiyonlama), makine öğrenmesi ve veri bilimi projelerinde kullanılan veri kümelerini, modelleri ve deneyleri Git'e benzer şekilde izleyen bir sürüm kontrol yöntemidir. Geleneksel yazılım geliştirmede kod değişiklikleri Git ile takip edilirken makine öğrenmesi projelerinde veri kümelerinin de aynı titizlikle yönetilmesi kritik önem taşır. Bir model eğitiminde hangi veri setinin kullanıldığını bilmeden deneyler tekrarlanamaz, performans regresyonlarının kaynağı tespit edilemez ve model denetim (audit) süreçleri güvenilir biçimde yürütülemez. 'Aynı kod, aynı veri sürümü, aynı sonuç' prensibi olarak da tanımlanan tam yeniden üretilebilirlik (full reproducibility), MLOps olgunluk modelinin temel gereksinimlerinden biridir. Bu alandaki en yaygın araç DVC (Data Version Control) olup açık kaynaklı bir proje olarak Git ile entegre çalışır: büyük veri dosyalarını Amazon S3, Google Cloud Storage veya Azure Blob gibi uzak depolara yükler, Git reposunda ise yalnızca küçük birer meta-dosya (pointer) tutar. Kasım 2025'te lakeFS tarafından satın alınan DVC, veri göllerinde Git tarzı dallanma, commit ve merge işlemlerine olanak tanıyan lakeFS mimarisiyle birleşmeye başlamıştır. Versiyon yönetimi yalnızca ham veri ile sınırlı kalmaz; dönüştürülmüş veri kümeleri, model ağırlıkları ve deney konfigürasyonları (hiperparametreler, rastgele tohum değerleri) de kapsama dahil edilir. Delta Lake ve Apache Iceberg ise veri gölü ve veri ambarı ortamlarında tablo düzeyinde ACID uyumlu versiyonlama, anlık görüntü (snapshot) alımı ve zaman yolculuğu sorguları (time travel query) sunarak data versioning'i kurumsal ölçekte uygulanabilir kılar. MLOps boru hatlarında data versioning şu görevleri üstlenir: her model eğitim koşusu için kullanılan veri sürümünü otomatik olarak kaydeder, model kayıt defteri (model registry) ile veri sürümü arasında birebir ilişki kurar, regresyon testlerinde referans veri setlerini sabitler ve AB testi koşullarını izole eder. Bu nedenle data versioning, üretime alınan yapay zeka sistemlerinde hem güvenilirlik hem de uyumluluk (compliance) gereksinimlerini karşılamak için vazgeçilmez bir bileşen haline gelmiştir.

arrow_forward