Aktif Öğrenme Nedir? (Active Learning) (Aktif Öğrenme)

Modelin hangi veri noktasının etiketlenmesi gerektiğini seçerek insan uzmanına sorduğu, minimum etiket bütçesiyle maksimum doğruluk hedefleyen makine öğrenmesi paradigması.

Aktif öğrenme (active learning), bir makine öğrenmesi modelinin kendi eğitim sürecine aktif katıldığı ve en çok bilgi kazandıracak veri noktalarını seçerek insan uzmanından (oracle) etiket talep ettiği bir paradigmadır. Geleneksel denetimli öğrenmede tüm eğitim verisi önceden etiketlenir; aktif öğrenmede ise model belirsizliği yüksek, bilgi değeri en fazla olan örnekleri hedefleyerek minimum etiket bütçesiyle maksimum performansa ulaşır. Temel sorgu stratejileri arasında belirsizlik örneklemesi (uncertainty sampling), kurul-sorgulama (query by committee) ve beklenen model değişimi (expected model change) yer alır. Belirsizlik örneklemesinde model, sınıflandırma güveni en düşük örnekleri sorgular. Kurul-sorgulamada birbirinden bağımsız modeller anlaşamadıkları örnekleri öne çıkarır. Aktif öğrenme özellikle tıbbi görüntü analizi, metin sınıflandırması ve biyomedikal NLP görevlerinde kritiktir; çünkü bu alanlarda uzman etiketleme hem pahalı hem de zaman alıcıdır. Burr Settles'ın 2009 teknik raporu alana en çok atıfta bulunulan kaynak olmaya devam etmektedir.

Neden Aktif Öğrenme?

Büyük ölçekli veri kümelerinde tüm örneklerin etiketlenmesi hem maliyetli hem de zaman alıcıdır. Tıbbi görüntülerde uzman radyolog zamanı, hukuki metinlerde avukat yorumu gibi alanlarda etiket bütçesi son derece kısıtlıdır. Aktif öğrenme bu sorunu çözmek için modeli bir 'akıllı sorgulayıcı' rolüne sokar: model neyi bilmediğini belirler ve yalnızca o örnekler için etiket ister. Bu yaklaşım, rastgele örneklemeyle karşılaştırıldığında aynı doğruluk için çok daha az etiketli veri kullanılmasını sağlar.

Temel Sorgu Stratejileri

**Belirsizlik Örneklemesi (Uncertainty Sampling):** Modelin tahmin güveni en düşük örnekleri sorgular. İkili sınıflandırmada karar sınırına en yakın noktalar hedeflenir. Çok sınıflı görevlerde entropi veya marjin örneklemesi kullanılır. **Kurul-Sorgulama (Query by Committee):** Farklı başlangıç koşullarıyla eğitilmiş birden fazla model, en çok anlaşamadıkları örnekleri seçer. Anlaşmazlık (disagreement) ölçütü olarak oy çoğunluğu, KL-diverjansı veya Kullback-Leibler kullanılır. **Beklenen Model Değişimi (Expected Model Change):** Bir örneğin eklenmesinin gradyan veya parametreler üzerinde yaratacağı beklenen etkiye göre sıralama yapılır. Hesaplama maliyeti yüksektir ama bilgi değeri en yüksek strateji sayılır.

Senaryo Türleri

**Pool-Based:** Etiketlenmemiş veri havuzundan tüm örnekler sorgulanabilirlik açısından sıralanır; en değerlisi seçilir. Pratikte en yaygın kullanılan senaryodur. **Stream-Based:** Veriler tek tek akış halinde gelir; her örnek için oracle'a başvurulup başvurulmayacağı anlık karar verilir. Gerçek zamanlı sistemlere uygundur. **Membership Query:** Model, orijinal veri dağılımından bile olmayan, yapay olarak üretilmiş örnekler oluşturabilir. Güçlüdür ama anlamsız sentetik örnekler üretme riski taşır.

Uygulama Alanları

Aktif öğrenme en fazla yarar sağladığı alanlarda yaygınlaşmıştır: tıbbi görüntülemede radyolog zamanını korumak için nodül tespiti ve tümör segmentasyonu; biyomedikal metinlerde ilişki çıkarma ve isim varlığı tanıma; doğal dil işlemede duygu analizi ve metin sınıflandırması; bilgisayarlı görüde nesne tespiti için sınırlayıcı kutu etiketlemesi. Otonom araç şirketi Waymo ve tıbbi AI girişimleri aktif öğrenmeyi veri boru hatlarının merkezine yerleştirmiştir.

Avantajlar ve Sınırlamalar

**Avantajlar:** Etiket maliyetini dramatik biçimde azaltır; aynı bütçeyle daha iyi model üretir; uzman zamanını en kritik noktalara yoğunlaştırır. **Sınırlamalar:** Soğuk başlangıç (cold start) sorunu — başlangıçta hiç etiketli veri yokken modelin neyi sorgulaması gerektiği belirsizdir. Oracle güvenilirliği — insan etiketleyicilerin hatası veya tutarsızlığı modeli yanıltabilir. Hesaplama maliyeti — her döngüde tüm havuzu değerlendirme pahalı olabilir.