Data Masking Nedir? Veri Maskeleme Teknikleri ve Kullanım Alanları (Veri Maskeleme)

#veri-maskeleme #gizlilik #GDPR #KVKK #veri-guvenligi #anonymization #test-data

Hassas verilerin gerçek değerleri gizlenerek yapısal bütünlükleri korunan sahte ya da değiştirilmiş verilerle ikame edilmesi; test, geliştirme ve yapay zeka eğitimi ortamlarında gizlilik sağlayan veri koruma tekniği.

summarize TL;DR

Statik veri maskeleme (SDM) verileri kalıcı olarak dönüştürürken, dinamik veri maskeleme (DDM) gerçek zamanlı sorgulama anında hassas alanları gizler.
GDPR ve KVKK uyumluluğunda veri maskeleme, kişisel verinin anonim hale getirilmesi için kurumsal standartlarca kabul gören tekniklerden biridir.
Yapay zeka model eğitiminde maskeleme, gerçek hasta ya da müşteri verisi kullanmadan üretim kalitesinde eğitim veri seti oluşturmayı mümkün kılar.
Format-preserving masking (biçim koruyucu maskeleme), kredi kartı numarası veya TC kimlik gibi hassas alanların yapısal biçimini koruyarak test ortamları için güvenli veri sağlar.
Tokenizasyon ve şifrelemenin aksine, veri maskeleme orijinal değeri kurtarmak için anahtar gerektirmeyen geri döndürülemez bir dönüşüm uygulayabilir.

fact_check Anahtar Bilgiler

Statik Data Masking (SDM) üretim verisi kopyası üzerinde kalıcı dönüşüm yaparken, Dinamik Data Masking (DDM) gerçek zamanlı sorgu seviyesinde rol bazlı gizleme uygular.

GDPR Madde 25 (Privacy by Design), veri maskelemeyi uyumlu bir teknik tedbir olarak açıkça tanımlanan pseudonymisation kapsamında değerlendirir.

Format-Preserving Masking (FPM) teknikleri, kredi kartı ve TC kimlik numarası gibi yapısal biçim gerektiren verileri maskeleyebilir.

IBM Security raporuna göre 2023'te bir veri ihlalinin ortalama maliyeti 4,45 milyon dolardır; veri maskeleme bu riski geliştirme ortamı kaynaklı sızıntılara karşı azaltır.

LLM fine-tuning ve RAG pipeline'larında maskeleme, PII memorization sorununu kaynakta önleyen birincil teknik savunmadır.

Veri maskeleme (data masking ya da veri gizleme), hassas ya da kişisel nitelikteki gerçek verilerin yerine işlevsel ama tanımlanamaz sahte veriler koyma tekniğidir. Amaç, veri setinin yapısal, istatistiksel ve biçimsel özelliklerini korurken bireysel kayıtların gerçek kişi ya da kurumlarla ilişkilendirilmesini olanaksız kılmaktır. Test ve geliştirme ekipleri, verinin gerçekliğini korumak zorunda kalmadan üretim ortamına yakın bir veri kümesiyle çalışabilir; böylece gizlilik sızıntısı riski büyük ölçüde azalır. GDPR ve Türkiye KVKK gibi veri koruma mevzuatları, kişisel verinin üçüncü taraflarla paylaşılmasını ya da farklı amaçlarla işlenmesini kısıtlar. Veri maskeleme, bu yasal gerekliliklerin karşılanmasında teknik bir araç olarak öne çıkar: düzgün maskelenmiş veri, artık kişisel veri sayılmayabileceğinden GDPR kapsamındaki koruyucu yükümlülükler hafifler. Nitekim AB Veri Koruma Kurulları, veri maskelemeyi anonimleştirme veya takma adlandırma (pseudonymisation) tekniklerinden biri olarak değerlendirir. Yapay zeka ve makine öğrenmesi alanında veri maskeleme, model eğitim süreçlerinde kritik bir rol üstlenir. Sağlık, finans ve perakende sektörlerinde gerçek müşteri ya da hasta verisinin üçüncü taraf araştırmacılara veya ML mühendislerine açılması yasal olarak mümkün olmayabilir. Bu durumda maskeli veri setleri, modellerin gerçekçi desenleri öğrenmesini sağlarken gizlilik riskini ortadan kaldırır. Büyük dil modellerinin fine-tuning süreçlerinde de hassas kurumsal veriler maskelenerek model, kurumun yazım stili veya domain bilgisini öğrenir; ancak gerçek PII (kişiyi tanımlayan bilgi) asla modele dahil edilmez.

Statik ve Dinamik Veri Maskeleme Farkı

Veri maskeleme iki temel biçimde uygulanır. Statik veri maskeleme (Static Data Masking — SDM), veritabanının kopyası üzerinde çalışarak hassas alanları kalıcı olarak dönüştürür; bu kopyayı geliştirme veya test ekipleri güvenle kullanabilir. Orijinal üretim verisi hiçbir zaman bu ortamlara taşınmaz. Dinamik veri maskeleme (Dynamic Data Masking — DDM) ise orijinal veritabanına dokunmaz; sorgulama anında kullanıcının yetkisine göre sonuçları anında maskeleyerek sunar. Bir müşteri hizmetleri temsilcisi kredi kartı numarasını görürken yalnızca son 4 haneyi görebilir; finans denetçisi ise tam numaraya erişebilir. DDM, rol tabanlı erişim kontrolüyle sıkı sıkıya bağlantılıdır ve canlı üretim ortamlarında da uygulanabilir.

Maskeleme Teknikleri

Sektörde kullanılan başlıca maskeleme teknikleri şunlardır: **Değer Değiştirme (Substitution):** Gerçek değer, aynı biçimde ancak rastgele veya sahte bir değerle değiştirilir. Örneğin gerçek bir ad olan 'Ahmet Yılmaz', 'Kemal Demir' ile ikame edilir. **Karıştırma (Shuffling):** Aynı sütundaki değerler birbirleriyle değiştirilerek bireysel eşleşme kırılır; toplam istatistikler korunur. **Format-Preserving Masking:** Kredi kartı numarası gibi belirli bir yapısal biçime sahip değerler, aynı biçimi koruyan ama geçersiz verilerle değiştirilir. Test sistemleri veri yapısını bozmadan çalışmaya devam eder. **Veri Türetme (Data Derivation):** Orijinal değerden matematiksel bir dönüşüm uygulanarak yeni bir değer oluşturulur; ancak geriye dönük hesaplama mümkün olmamalıdır. **Null / Constant Değer:** Hassas alan tamamen boşaltılır ya da sabit bir yer tutucu değerle ('XXXX' gibi) doldurulur; en basit ama en az işlevsel tekniktir.

Yapay Zeka ve LLM Eğitiminde Kullanım

Büyük veri setleri üzerinde eğitilen yapay zeka modelleri, kişisel veri içeren eğitim materyallerini ezberleyebilir ve bu veriyi istenmeyen biçimlerde çıktıya yansıtabilir — 'memorization' sorunu. Veri maskeleme, bu riski kaynakta önler: eğitim seti ML hattına girmeden önce PII (isimler, adresler, kimlik numaraları, sağlık kayıtları) maskeli hale getirilir. Özellikle fintech ve sağlık alanında geliştirilen LLM'ler için düzenleyici kurumlar, eğitim verisinde gerçek kişisel verinin bulunmamasını zorunlu kılabilir. Sağlık sektöründe HIPAA (ABD) ve Türkiye'de sağlık verisi özel kategoride yer aldığından KVKK'nın 6. maddesi kapsamında ekstra koruma gerektirir; bu durumda maskeleme veya sentetik veri üretimi birlikte kullanılır. RAG (Retrieval Augmented Generation) sistemlerinde ise kurumsal belge tabanına dahil edilen dökümanlar maskelenerek gizli müşteri bilgilerinin LLM'in bağlamına sızması engellenir.

Tokenizasyon ve Şifreleme ile Karşılaştırma

Veri maskeleme, tokenizasyon ve şifreleme ile sık sık karıştırılır. Aralarındaki temel farklar: **Şifreleme (Encryption):** Veriyi geri döndürülebilir biçimde korur; yetkili taraf anahtarla orijinal veriye ulaşabilir. Test ortamlarında anahtarın yönetimi karmaşıklık yaratır. **Tokenizasyon (Tokenization):** Hassas değerin yerine referans token konulur; gerçek değer güvenli bir kasada saklanır. Token, tek başına anlamsızdır ancak kasa aracılığıyla geri döndürülebilir. **Veri Maskeleme:** Orijinal değer geri döndürülemez biçimde değiştirilir. Gizlilik amaçları için en güçlü seçenek olmakla birlikte belirli kullanım senaryolarında analitik sadakati düşürebilir. Kurumlar genellikle bu teknikleri katmanlı olarak kullanır: üretim veritabanında şifreleme ve tokenizasyon, geliştirme ve test ortamlarında ise statik veri maskeleme tercih edilir.