Feature Selection (Özellik Seçimi)

Makine öğrenmesi modelinin performansını artırmak için en bilgilendirici değişkenleri veri kümesinden otomatik olarak seçme süreci.

Özellik seçimi (feature selection), makine öğrenmesi modelini eğitmek için kullanılacak en alakalı ve bilgilendirici özelliklerin (değişkenlerin) ham veri kümesinden belirlenmesi ve seçilmesi sürecidir. Gereksiz, gürültülü veya birbirleriyle yüksek korelasyonlu özelliklerin elenmesiyle model doğruluğu artırılır, eğitim süresi kısalır ve aşırı öğrenme (overfitting) riski azaltılır.

Özellik Seçimi Neden Önemlidir?

Gerçek dünya veri kümelerinde onlarca, hatta yüzlerce özellik bulunabilir. Ancak modelin performansı için her özellik eşit değerde değildir. Gereksiz özellikler modeli karmaşıklaştırır, eğitim süresini uzatır ve aşırı öğrenme riskini artırır. Özellik seçimi bu sorunu çözerek daha sade, daha hızlı ve daha iyi genelleme yapan modeller üretir.

Temel Özellik Seçimi Yöntemleri

  • check_circle Filtre Yöntemleri (Filter Methods): Özellikleri istatistiksel puanlarına göre sıralayan bağımsız yöntemlerdir. Korelasyon katsayısı, ki-kare testi ve karşılıklı bilgi (mutual information) bu kategoriye girer. Model eğitiminden önce uygulanır ve hesaplama açısından çok verimlidir.
  • check_circle Sarmalayıcı Yöntemleri (Wrapper Methods): Farklı özellik alt kümelerini aday model üzerinde deneyerek en iyi kombinasyonu bulan yinelemeli yaklaşımlardır. Öne doğru seçim (forward selection), geriye doğru eleme (backward elimination) ve RFE (Recursive Feature Elimination) bu gruba girer. Daha yüksek doğruluk sağlarken hesaplama maliyeti de daha yüksektir.
  • check_circle Gömülü Yöntemler (Embedded Methods): Özellik seçimini model eğitimiyle birleştiren yöntemlerdir. Lasso (L1 düzenlileştirme) gereksiz özelliklerin katsayısını sıfıra çeker; ağaç tabanlı modeller (Random Forest, XGBoost) her özelliğe önem skoru atar. Filtre ve sarmalayıcı yöntemlerin avantajlarını dengeler.

Özellik Önemi (Feature Importance)

Ağaç tabanlı modeller (Random Forest, XGBoost, LightGBM) her özelliğin model kararlarına ne kadar katkıda bulunduğunu gösteren önem skorları üretir. Bu skorlar, hangi özelliklerin tutulacağına karar vermek için kullanılan pratik bir rehberdir. SHAP (SHapley Additive exPlanations) değerleri ise özellik önemini daha yorumlanabilir ve model-agnostik biçimde açıklar; her tahmini tek tek etkileyen özellikleri gösterir.

Boyut İndirgemeyle Farkı

Özellik seçimi, mevcut özelliklerden bir alt küme seçer; yani orijinal özellikler korunur ve yorumlanabilirlik sağlanır. Boyut indirgeme teknikleri (PCA gibi) ise özellikleri matematiksel olarak dönüştürerek yeni bileşenler oluşturur; bu bileşenlerin sezgisel anlamı yoktur. Yorumlanabilirlik önemliyse özellik seçimi, kompaktlık öncelikliyse boyut indirgeme tercih edilir.

Makine Öğrenmesinde Uygulama Alanları

Özellik seçimi; tıbbi teşhis verilerinde en kritik biyobelirteçleri bulmak, metin sınıflandırmada en ayırt edici kelimeleri seçmek, müşteri churn (kayıp) tahmininde en öngörücü davranışları tespit etmek ve dolandırıcılık tespitinde anomali sinyallerini filtrelemek gibi geniş bir yelpazede uygulanır. Veri kümesi ne kadar büyük ve yüksek boyutluysa özellik seçiminin faydası o kadar belirginleşir.