Bilgi Damıtma, büyük öğretmen modelin bilgisini yumuşak olasılık çıktıları üzerinden daha küçük öğrenci modele aktaran bir model sıkıştırma tekniğidir.

Knowledge Distillation, büyük ve güçlü bir öğretmen modelin bilgisini daha küçük ve verimli bir öğrenci modele aktarma sürecidir. Öğrenci model, doğrudan ham etiketlerden değil; öğretmenin yumuşak olasılık çıktılarından (soft labels) öğrenerek eğitim veri kümesindeki sinyallerin ötesine geçen genelleme yeteneği kazanır.

settings_suggest Nasıl Çalışır?

Standart eğitimde model one-hot etiketlerle optimize edilir. Bilgi damıtmada ise öğretmen modelin logitleri sıcaklık parametresiyle yumuşatılarak öğrenciye sunulur. Bu yumuşak etiketler, sınıflar arasındaki ilişki bilgisini taşır ve öğrencinin daha zengin bir temsil öğrenmesini sağlar.

Temel Bileşenler

school Öğretmen Model

Yüksek kapasiteli önceden eğitilmiş büyük model. Doğruluk için optimize edilmiştir; deploy maliyeti gözetilmez.

person Öğrenci Model

Öğretmenden 10x–100x daha küçük, hızlı çalışan model. Üretime deploy edilmek üzere tasarlanır.

thermostat Sıcaklık (Temperature)

Logitleri yumuşatmak için kullanılan hiperparametre. Yüksek T değerleri daha yumuşak dağılımlar üretir.

functions Distillation Loss

Öğrencinin KL-divergence ile öğretmen çıktılarına yaklaşmasını zorlayan kayıp terimi; hard label kaybıyla birleştirilir.

rocket_launch Kullanım Alanları

  • check_circle DistilBERT: BERT'in bilgi damıtmayla elde edilen %40 daha küçük versiyonu; orijinal performansın %97'sini koruyarak %60 daha hızlı çalışır.
  • check_circle Mobil ve Edge: Telefon ve IoT cihazlarına sığmayan büyük modeller damıtılarak kenar cihazlarda gerçek zamanlı çıkarım yapar.
  • check_circle LLM Sıkıştırma: GPT-4 gibi büyük modellerin yetenekleri Llama-7B gibi açık kaynaklı küçük modellere aktarılır.
  • check_circle Ensemble Damıtma: Birden fazla öğretmen modelin toplu bilgisi tek bir öğrenciye sıkıştırılarak hem hız hem yüksek doğruluk elde edilir.

quiz Sıkça Sorulan Sorular

  • check_circle Quantization'dan farkı nedir?: Quantization model ağırlıklarının hassasiyetini düşürür. Distillation ise modelin mimarisini küçültür; ikisi birlikte de uygulanabilir.
  • check_circle Öğrenci her zaman öğretmenden daha kötü müdür?: Genellikle evet; ancak görev-spesifik damıtmada öğrenci dar bir alanda öğretmeni geçebilir.
  • check_circle Ne zaman tercih edilir?: Düşük gecikmeli üretim ortamları, bellek kısıtlı cihazlar ve yüksek çıkarım maliyetinin sorun olduğu durumlarda distillation en pratik model küçültme yöntemidir.