Student Model (Öğrenci Model (Student Model))

#StudentModel #ÖğrenciModel #KnowledgeDistillation #Distilasyon #SLM

Öğrenci model (student model), bilgi damıtma (knowledge distillation) sürecinde daha büyük ve güçlü bir öğretmen modelden (teacher model) bilgi aktarımı alarak eğitilen küçük ve hafif sinir ağıdır. Öğrenci modelin hedefi, öğretmenin performansına mümkün olduğunca yaklaşmak — ancak çok daha az parametreyle ve dolayısıyla daha düşük hesaplama maliyetiyle. Geleneksel eğitimde model gerçek etiketlerden (one-hot) öğrenir. Damıtma yaklaşımında öğrenci ek olarak öğretmenin yumuşak çıktılarını (olasılık dağılımları) hedef alır. Bu sayede öğretmenin genelleştirme bilgisi, sınıflar arası benzerlik ilişkileri ve 'karanlık bilgi' öğrenciye aktarılır. Öğrenci model çoğunlukla aynı veya benzer mimariyi kullanır ancak daha az katman veya daha dar katmanlar içerir. LLM damıtmasında öğrenci modelin önemi daha da büyümüştür. Phi-4 (Microsoft), Gemma 3 (Google) ve Qwen 3 gibi küçük dil modelleri (SLM), GPT-4 veya Claude gibi öğretmen modellerden üretilen sentetik verilerle eğitilerek boyutlarına kıyasla olağanüstü performans sergilemektedir. Bu 'spec distillation' yaklaşımı, tüketici cihazları ve uç (edge) sistemleri için güçlü modeller üretmenin pratik yolu haline gelmiştir.

Öğrenci Model Mimarisi

compress Küçük Transformer

Öğretmenle aynı mimari ancak daha az katman ve/veya daha dar gizli boyut. DistilBERT: 6 katman (BERT'in %50'si), %97 GLUE performansı.

architecture Mimari Farklılaşma

Öğrenci farklı mimari de kullanabilir. Öğretmen transformer, öğrenci CNN veya GRU olabilir; görev basit ve hıza odaklıysa.

tune LoRA Adaptörü

Büyük baz modeli dondur, küçük adaptör matrislerini eğit. Teknik olarak temel model öğretmen gibi davranır; adaptör ise öğrenci rolündedir.

memory Niceleme+Damıtma

INT8/INT4 nicemleme ile birleştirme: hem parametre azaltma hem de hassasiyet düşürme. Uç cihazlara dağıtım için ideal.

star Ünlü Öğrenci Modeller

DistilBERT: BERT'in %40 daha küçük, %60 daha hızlı damıtılmış versiyonu. TinyBERT: 4 katman, BERT-base performansının %96'sı. Phi-4 (3.8B): GPT-4 kalitesine yakın SLM; sentetik veri damıtmasının öncüsü. Gemma 3 (1B/4B): tüketici donanımında çalışan Google SLM. Qwen3 (0.6B-4B): Çince ve çok dilli görevlerde güçlü öğrenci modeller.

quiz Sık Sorulan Sorular

check_circle Öğrenci model her zaman öğretmenden daha mı düşük performanslıdır?: Genel olarak evet, ancak görev özeli ince ayar sonrasında öğrenci model öğretmeni belirli kıyaslamalarda geçebilir. Özellikle görev-spesifik verilerle ince ayar yapıldığında.
check_circle Öğrenci model eğitimi için öğretmen modeli canlı gereksinim var mı?: Çevrimiçi damıtmada (online distillation) evet. Çevrimdışı damıtmada (offline) ise öğretmenin önceden ürettiği çıktılar yeterlidir; eğitim sırasında öğretmene erişim gerekmez.