Concept Drift Detection Nedir?
Concept drift detection, bir makine öğrenmesi modelinin üretim ortamında karşılaştığı veri dağılımının, modelin eğitildiği orijinal dağılımdan anlamlı ölçüde saptığını tespit etme sürecidir. Bu sapma, modelin tahminleri için kullandığı istatistiksel örüntülerin artık gerçek dünyayı temsil etmediği anlamına gelir. Sessiz bir tehlike olarak değerlendirilen kavram kayması, genellikle model çıktılarında yavaş yavaş bozulmaya neden olur ve yeterli izleme mekanizması olmaksızın fark edilmeyebilir. Finansal modeller piyasa koşullarının değişimiyle, öneri sistemleri kullanıcı zevklerinin evrimiyle, tıbbi teşhis modelleri hastalık örüntülerinin dönüşümüyle kavram kaymasına maruz kalır. Kavram kayması iki temel boyutta incelenir: veri kayması (covariate shift) ve hedef kayması (label shift). Veri kaymasında giriş değişkenlerinin dağılımı değişirken ilişki P(Y|X) sabit kalır; hedef kaymasında ise etiket dağılımı değişir.
Drift Türleri
- check_circle Ani Drift (Sudden Drift): Veri dağılımı kısa sürede dramatik biçimde değişir. COVID-19 salgını, ekonomik krizler veya regülasyon değişiklikleri gibi dışsal şoklar bu türü tetikler. En kolay tespit edilebilen ama en yıkıcı olan türdür.
- check_circle Kademeli Drift (Gradual Drift): Eski dağılım yavaş yavaş yenisiyle yer değiştirir. Tüketici tercihlerindeki mevsimsel dönüşüm veya teknoloji adaptasyon eğrileri buna örnek verilebilir. Tespiti için uzun gözlem pencereleri gereklidir.
- check_circle Tekrarlı Drift (Recurring Drift): Daha önce gözlemlenen dağılım kalıpları periyodik olarak yeniden ortaya çıkar. Haftalık alışveriş döngüleri veya yıllık tatil sezonu örüntüleri bu kategoriye girer. Geçmiş bağlamı hatırlayabilen modeller bu tür drifti daha etkin yönetir.
- check_circle Artımlı Drift (Incremental Drift): Dağılım çok küçük adımlarla sürekli değişir; hiçbir zaman ani bir kırılma yaşanmaz. Uzun vadeli demografik değişimler veya dil kullanımının evrimi bu türe örnektir. En zor tespit edilen drift çeşididir.
Tespit Algoritmaları
ADWIN
ADaptive WINdowing algoritması, geçmiş veri penceresini dinamik olarak boyutlandırır. İki alt pencere arasındaki ortalama fark istatistiksel eşiği aşınca drift ilan eder ve eski verileri pencereden düşürür.
DDM
Drift Detection Method, sınıflandırıcı hata oranını ve standart sapmasını sürekli izler. Hata oranı belirli bir eşiği aşarsa uyarı verir; daha yüksek bir eşikte ise drift olarak işaretler.
EDDM
Early Drift Detection Method, DDM'nin erken uyarıya odaklanan genişletilmiş versiyonudur. Birbirini izleyen iki hata arasındaki mesafeyi izleyerek kademeli drifti daha erken saptar.
Page-Hinkley
Sıralı analiz tabanlı bu test, bir istatistiğin kümülatif sapmasını izler. Sapma bir eşiği geçtiğinde alarm üretir. Enerji tüketimi veya üretim kalitesi gibi sürekli değişkenleri izlemek için uygundur.
Uygulama Alanları
- check_circle Finans ve Kredi Riski: Kredi puanlama modelleri, ekonomik konjonktür değiştikçe borçlu profillerinin kaymasını izlemek için drift tespiti kullanır; zamanında yeniden kalibrasyon kayıpları minimize eder.
- check_circle E-ticaret Önerme Sistemleri: Kullanıcı tercihlerinin zaman içinde değişmesini izler; mevsimsel veya trend kaymaları tespit edilerek öneri motorları güncellenir ve dönüşüm oranları korunur.
- check_circle Sağlık ve Tıbbi Teşhis: Hastalık örüntülerinin değişimi, yeni varyantların ortaya çıkması veya tedavi protokollerinin güncellenmesiyle tıbbi AI modelleri kavram kaymasına maruz kalır; izleme hayati önem taşır.
- check_circle Doğal Dil İşleme: Dil kullanımı, jargon ve anlam kaymaları NLP modellerinin zamanla performans kaybetmesine yol açar. Duygu analizi ve spam filtreleme modelleri bu drift türüne özellikle duyarlıdır.
- check_circle Üretim ve Endüstriyel IoT: Makine sağlığı tahmin modellerinde ekipman yaşlanması, bakım sonrası parametrik değişimler veya çevresel koşul kaymaları tespit edilir; kestirimci bakım zamanında tetiklenir.
Sıkça Sorulan Sorular
- check_circle Concept drift ile data drift arasındaki fark nedir?: Data drift (covariate shift) giriş değişkenlerinin dağılımının değişmesini ifade ederken, concept drift hedef değişken ile giriş değişkenleri arasındaki ilişkinin — yani modelin öğrendiği 'kavramın' — değişmesidir. Data drift her zaman concept drift'e yol açmaz; ancak her ikisi de model izlemesinde dikkatle takip edilmelidir.
- check_circle Kavram kayması nasıl önlenir?: Tam olarak önlemek mümkün değildir; gerçek dünya verileri değişkendir. Ancak sürekli izleme, otomatik yeniden eğitim pipeline'ları, ensemble adaptasyon yöntemleri ve online learning yaklaşımları drift'in model performansı üzerindeki olumsuz etkisini minimize eder.
- check_circle Drift tespiti için ne kadar veri gerekir?: Algoritma ve istatistiksel güce bağlı olarak değişir. ADWIN gibi pencere tabanlı yöntemler yüzlerce örnekle çalışabilirken, daha hassas istatistiksel testler binlerce gözlem gerektirebilir. Referans pencere büyüklüğü ve güven aralığı, gereksiz uyarıları (false positive) azaltmak için dikkatle ayarlanmalıdır.
- check_circle Hangi MLOps araçları drift tespitini destekler?: Evidently AI açık kaynak ve kullanımı kolay bir çerçeve sunar. NannyML, etiket verisi olmadan performans tahminini sağlar. Amazon SageMaker Model Monitor ve Azure ML Model Monitoring bulut tabanlı çözümler sunar. WhyLogs ve Great Expectations ise veri kalitesi odaklı izleme için tercih edilir.