Öğrenci Model Mimarisi
compress Küçük Transformer
Öğretmenle aynı mimari ancak daha az katman ve/veya daha dar gizli boyut. DistilBERT: 6 katman (BERT'in %50'si), %97 GLUE performansı.
architecture Mimari Farklılaşma
Öğrenci farklı mimari de kullanabilir. Öğretmen transformer, öğrenci CNN veya GRU olabilir; görev basit ve hıza odaklıysa.
tune LoRA Adaptörü
Büyük baz modeli dondur, küçük adaptör matrislerini eğit. Teknik olarak temel model öğretmen gibi davranır; adaptör ise öğrenci rolündedir.
memory Niceleme+Damıtma
INT8/INT4 nicemleme ile birleştirme: hem parametre azaltma hem de hassasiyet düşürme. Uç cihazlara dağıtım için ideal.
star Ünlü Öğrenci Modeller
DistilBERT: BERT'in %40 daha küçük, %60 daha hızlı damıtılmış versiyonu. TinyBERT: 4 katman, BERT-base performansının %96'sı. Phi-4 (3.8B): GPT-4 kalitesine yakın SLM; sentetik veri damıtmasının öncüsü. Gemma 3 (1B/4B): tüketici donanımında çalışan Google SLM. Qwen3 (0.6B-4B): Çince ve çok dilli görevlerde güçlü öğrenci modeller.
quiz Sık Sorulan Sorular
- check_circle Öğrenci model her zaman öğretmenden daha mı düşük performanslıdır?: Genel olarak evet, ancak görev özeli ince ayar sonrasında öğrenci model öğretmeni belirli kıyaslamalarda geçebilir. Özellikle görev-spesifik verilerle ince ayar yapıldığında.
- check_circle Öğrenci model eğitimi için öğretmen modeli canlı gereksinim var mı?: Çevrimiçi damıtmada (online distillation) evet. Çevrimdışı damıtmada (offline) ise öğretmenin önceden ürettiği çıktılar yeterlidir; eğitim sırasında öğretmene erişim gerekmez.