Soft Labels (Yumuşak Etiketler (Soft Labels))

#SoftLabels #Distilasyon #KnowledgeDistillation #MachineLearning #Temperature

Yumuşak etiketler (soft labels), bir sınıflandırma modelinin kesin ('kedi: 1, köpek: 0') one-hot kodlu etiketler (sert etiketler, hard labels) yerine olasılık dağılımlarını ('kedi: 0.8, köpek: 0.15, diğer: 0.05') hedef olarak kullanmasını ifade eder. Bu yaklaşım özellikle bilgi damıtma (knowledge distillation) sürecinde öğretmen modelin ürettiği tahmin dağılımlarını öğrenci modele aktarmanın yolu olarak kritik bir rol üstlenir. Sert etiketlerin aksine yumuşak etiketler 'karanlık bilgi' (dark knowledge) taşır: öğretmen model, yanlış sınıflar için de sıfır olmayan küçük olasılıklar atar. Örneğin bir 'kedi' görüntüsü için model 'kaplan: 0.03' skoru verebilir — bu, iki sınıf arasındaki görsel benzerliği kodlar. Öğrenci model bu ilişkileri öğrenince genelleme kapasitesi artar. Sıcaklık parametresi (temperature), yumuşak etiket üretiminde kritiktir. T > 1 değerleri dağılımı daha yumuşak ve bilgisi zengin hale getirir; T = 1 standart softmax çıktısına karşılık gelir. Damıtma sürecinde öğretmen hem yüksek T ile üretilen yumuşak etiketleri hem de gerçek etiketler üzerinden hesaplanan doğruluk kaybını birlikte öğrenciye aktarır. Geoffrey Hinton'ın 2015 tarihli öncü çalışması bu temeli atmıştır.

Sert Etiket vs. Yumuşak Etiket

tag Sert Etiket

One-hot vektör. [1, 0, 0, ...] — yalnızca doğru sınıf 1, diğerleri 0. Bilgi yoğunluğu düşük; sınıflar arası ilişki kodlanmaz.

blur_on Yumuşak Etiket

[0.8, 0.15, 0.05, ...] — öğretmenin olasılık dağılımı. Karanlık bilgi içerir; sınıflar arası benzerlik ilişkisini kodlar.

thermostat Sıcaklık Etkisi

T=1: normal softmax. T=4: dağılım yumuşar, farklılıklar azalır. Yüksek T ile yumuşatılmış etiketler daha fazla bilgi içerir.

dark_mode Karanlık Bilgi

Yanlış sınıfların küçük ama sıfır olmayan olasılıkları. Örn. kedi-kaplan benzerliğini kodlar. Öğrencinin genellemesini artırır.

calculate Damıtmada Kayıp Fonksiyonu

Standart damıtma kaybı iki bileşenden oluşur: (1) Yumuşak etiket kaybı — öğrenci ile öğretmen dağılımları arasındaki KL Divergence veya çapraz entropi (yüksek T ile), (2) Sert etiket kaybı — gerçek etiketler üzerinden öğrenci çapraz entropisi. Toplam kayıp = α * (yumuşak kayıp) + (1-α) * (sert kayıp). α hiperparametresi iki bileşenin ağırlığını belirler; tipik değerler 0.5-0.9 arasındadır.

quiz Sık Sorulan Sorular

check_circle Yumuşak etiketler her görevde kullanılabilir mi?: Sınıflandırma görevlerinde doğrudan uygulanır. Üretici modeller için response distillation kullanılır: öğretmenin metin çıktıları öğrenciye referans olarak verilir.
check_circle Damıtmada en iyi T (sıcaklık) değeri nedir?: Orijinal Hinton çalışması T=2-4 önerir. Görev ve model kapasitesine bağlıdır; genellikle ablasyon çalışmasıyla belirlenir.