Aktif Öğrenme (Active Learning) Nedir?

Neden Aktif Öğrenme?

Büyük ölçekli veri kümelerinde tüm örneklerin etiketlenmesi hem maliyetli hem de zaman alıcıdır. Tıbbi görüntülerde uzman radyolog zamanı, hukuki metinlerde avukat yorumu gibi alanlarda etiket bütçesi son derece kısıtlıdır. Aktif öğrenme bu sorunu çözmek için modeli bir 'akıllı sorgulayıcı' rolüne sokar: model neyi bilmediğini belirler ve yalnızca o örnekler için etiket ister. Bu yaklaşım, rastgele örneklemeyle karşılaştırıldığında aynı doğruluk için çok daha az etiketli veri kullanılmasını sağlar.

Temel Sorgu Stratejileri

**Belirsizlik Örneklemesi (Uncertainty Sampling):** Modelin tahmin güveni en düşük örnekleri sorgular. İkili sınıflandırmada karar sınırına en yakın noktalar hedeflenir. Çok sınıflı görevlerde entropi veya marjin örneklemesi kullanılır. **Kurul-Sorgulama (Query by Committee):** Farklı başlangıç koşullarıyla eğitilmiş birden fazla model, en çok anlaşamadıkları örnekleri seçer. Anlaşmazlık (disagreement) ölçütü olarak oy çoğunluğu, KL-diverjansı veya Kullback-Leibler kullanılır. **Beklenen Model Değişimi (Expected Model Change):** Bir örneğin eklenmesinin gradyan veya parametreler üzerinde yaratacağı beklenen etkiye göre sıralama yapılır. Hesaplama maliyeti yüksektir ama bilgi değeri en yüksek strateji sayılır.

Senaryo Türleri

**Pool-Based:** Etiketlenmemiş veri havuzundan tüm örnekler sorgulanabilirlik açısından sıralanır; en değerlisi seçilir. Pratikte en yaygın kullanılan senaryodur. **Stream-Based:** Veriler tek tek akış halinde gelir; her örnek için oracle'a başvurulup başvurulmayacağı anlık karar verilir. Gerçek zamanlı sistemlere uygundur. **Membership Query:** Model, orijinal veri dağılımından bile olmayan, yapay olarak üretilmiş örnekler oluşturabilir. Güçlüdür ama anlamsız sentetik örnekler üretme riski taşır.

Uygulama Alanları

Aktif öğrenme en fazla yarar sağladığı alanlarda yaygınlaşmıştır: tıbbi görüntülemede radyolog zamanını korumak için nodül tespiti ve tümör segmentasyonu; biyomedikal metinlerde ilişki çıkarma ve isim varlığı tanıma; doğal dil işlemede duygu analizi ve metin sınıflandırması; bilgisayarlı görüde nesne tespiti için sınırlayıcı kutu etiketlemesi. Otonom araç şirketi Waymo ve tıbbi AI girişimleri aktif öğrenmeyi veri boru hatlarının merkezine yerleştirmiştir.

Avantajlar ve Sınırlamalar

**Avantajlar:** Etiket maliyetini dramatik biçimde azaltır; aynı bütçeyle daha iyi model üretir; uzman zamanını en kritik noktalara yoğunlaştırır. **Sınırlamalar:** Soğuk başlangıç (cold start) sorunu — başlangıçta hiç etiketli veri yokken modelin neyi sorgulaması gerektiği belirsizdir. Oracle güvenilirliği — insan etiketleyicilerin hatası veya tutarsızlığı modeli yanıltabilir. Hesaplama maliyeti — her döngüde tüm havuzu değerlendirme pahalı olabilir.