Sert Etiket vs. Yumuşak Etiket
tag Sert Etiket
One-hot vektör. [1, 0, 0, ...] — yalnızca doğru sınıf 1, diğerleri 0. Bilgi yoğunluğu düşük; sınıflar arası ilişki kodlanmaz.
blur_on Yumuşak Etiket
[0.8, 0.15, 0.05, ...] — öğretmenin olasılık dağılımı. Karanlık bilgi içerir; sınıflar arası benzerlik ilişkisini kodlar.
thermostat Sıcaklık Etkisi
T=1: normal softmax. T=4: dağılım yumuşar, farklılıklar azalır. Yüksek T ile yumuşatılmış etiketler daha fazla bilgi içerir.
dark_mode Karanlık Bilgi
Yanlış sınıfların küçük ama sıfır olmayan olasılıkları. Örn. kedi-kaplan benzerliğini kodlar. Öğrencinin genellemesini artırır.
calculate Damıtmada Kayıp Fonksiyonu
Standart damıtma kaybı iki bileşenden oluşur: (1) Yumuşak etiket kaybı — öğrenci ile öğretmen dağılımları arasındaki KL Divergence veya çapraz entropi (yüksek T ile), (2) Sert etiket kaybı — gerçek etiketler üzerinden öğrenci çapraz entropisi. Toplam kayıp = α * (yumuşak kayıp) + (1-α) * (sert kayıp). α hiperparametresi iki bileşenin ağırlığını belirler; tipik değerler 0.5-0.9 arasındadır.
quiz Sık Sorulan Sorular
- check_circle Yumuşak etiketler her görevde kullanılabilir mi?: Sınıflandırma görevlerinde doğrudan uygulanır. Üretici modeller için response distillation kullanılır: öğretmenin metin çıktıları öğrenciye referans olarak verilir.
- check_circle Damıtmada en iyi T (sıcaklık) değeri nedir?: Orijinal Hinton çalışması T=2-4 önerir. Görev ve model kapasitesine bağlıdır; genellikle ablasyon çalışmasıyla belirlenir.