Student Model (Öğrenci Model (Student Model))
Öğrenci model (student model), bilgi damıtma (knowledge distillation) sürecinde daha büyük ve güçlü bir öğretmen modelden (teacher model) bilgi aktarımı alarak eğitilen küçük ve hafif sinir ağıdır. Öğrenci modelin hedefi, öğretmenin performansına mümkün olduğunca yaklaşmak — ancak çok daha az parametreyle ve dolayısıyla daha düşük hesaplama maliyetiyle.
Geleneksel eğitimde model gerçek etiketlerden (one-hot) öğrenir. Damıtma yaklaşımında öğrenci ek olarak öğretmenin yumuşak çıktılarını (olasılık dağılımları) hedef alır. Bu sayede öğretmenin genelleştirme bilgisi, sınıflar arası benzerlik ilişkileri ve 'karanlık bilgi' öğrenciye aktarılır. Öğrenci model çoğunlukla aynı veya benzer mimariyi kullanır ancak daha az katman veya daha dar katmanlar içerir.
LLM damıtmasında öğrenci modelin önemi daha da büyümüştür. Phi-4 (Microsoft), Gemma 3 (Google) ve Qwen 3 gibi küçük dil modelleri (SLM), GPT-4 veya Claude gibi öğretmen modellerden üretilen sentetik verilerle eğitilerek boyutlarına kıyasla olağanüstü performans sergilemektedir. Bu 'spec distillation' yaklaşımı, tüketici cihazları ve uç (edge) sistemleri için güçlü modeller üretmenin pratik yolu haline gelmiştir.