Teacher Model (Öğretmen Model (Teacher Model))
Öğretmen model (teacher model), bilgi damıtma (knowledge distillation) sürecinde büyük, güçlü ve pahalı sinir ağını ifade eder; bu ağın öğrendiği bilgi daha küçük bir öğrenci modele aktarılır. Öğretmen model, genellikle yüksek hesaplama kaynaklarıyla uzun süre eğitilmiş ve güçlü performans sergileyen bir modeldir: GPT-4, Claude Opus veya büyük ölçekli BERT varyantları bunlara örnek gösterilebilir.
Öğretmen modelin rolü, eğitim sırasında öğrenciye rehberlik etmektir. Sert etiketler (ground truth) yerine olasılık dağılımları (yumuşak etiketler) üreterek öğrenciye daha zengin bilgi sinyalleri iletir. Sınıflar arasındaki benzerlik ilişkileri ve belirsizlik bilgisi bu dağılımlara kodlanır. Öğrenci, yalnızca 'doğru' sınıfı değil, 'ne kadar benzer sınıflar var' sorusunu da öğretmenden öğrenir.
Modern LLM ekosisteminde öğretmen modeller iki farklı biçimde kullanılır: (1) Gerçek zamanlı damıtma: öğrenci eğitim sırasında öğretmenden canlı olarak yumuşak etiket alır, (2) Veri damıtması: öğretmen eğitimden önce büyük miktarda yüksek kaliteli sentetik veri üretir; öğrenci bu verilerle standart eğitim görür. İkinci yaklaşım özellikle Phi serisi modellerin başarısının arkasındaki temel stratejidir.