settings_suggest Nasıl Çalışır?
Standart eğitimde model one-hot etiketlerle optimize edilir. Bilgi damıtmada ise öğretmen modelin logitleri sıcaklık parametresiyle yumuşatılarak öğrenciye sunulur. Bu yumuşak etiketler, sınıflar arasındaki ilişki bilgisini taşır ve öğrencinin daha zengin bir temsil öğrenmesini sağlar.
Temel Bileşenler
school Öğretmen Model
Yüksek kapasiteli önceden eğitilmiş büyük model. Doğruluk için optimize edilmiştir; deploy maliyeti gözetilmez.
person Öğrenci Model
Öğretmenden 10x–100x daha küçük, hızlı çalışan model. Üretime deploy edilmek üzere tasarlanır.
thermostat Sıcaklık (Temperature)
Logitleri yumuşatmak için kullanılan hiperparametre. Yüksek T değerleri daha yumuşak dağılımlar üretir.
functions Distillation Loss
Öğrencinin KL-divergence ile öğretmen çıktılarına yaklaşmasını zorlayan kayıp terimi; hard label kaybıyla birleştirilir.
rocket_launch Kullanım Alanları
- check_circle DistilBERT: BERT'in bilgi damıtmayla elde edilen %40 daha küçük versiyonu; orijinal performansın %97'sini koruyarak %60 daha hızlı çalışır.
- check_circle Mobil ve Edge: Telefon ve IoT cihazlarına sığmayan büyük modeller damıtılarak kenar cihazlarda gerçek zamanlı çıkarım yapar.
- check_circle LLM Sıkıştırma: GPT-4 gibi büyük modellerin yetenekleri Llama-7B gibi açık kaynaklı küçük modellere aktarılır.
- check_circle Ensemble Damıtma: Birden fazla öğretmen modelin toplu bilgisi tek bir öğrenciye sıkıştırılarak hem hız hem yüksek doğruluk elde edilir.
quiz Sıkça Sorulan Sorular
- check_circle Quantization'dan farkı nedir?: Quantization model ağırlıklarının hassasiyetini düşürür. Distillation ise modelin mimarisini küçültür; ikisi birlikte de uygulanabilir.
- check_circle Öğrenci her zaman öğretmenden daha kötü müdür?: Genellikle evet; ancak görev-spesifik damıtmada öğrenci dar bir alanda öğretmeni geçebilir.
- check_circle Ne zaman tercih edilir?: Düşük gecikmeli üretim ortamları, bellek kısıtlı cihazlar ve yüksek çıkarım maliyetinin sorun olduğu durumlarda distillation en pratik model küçültme yöntemidir.