Teacher Model (Öğretmen Model (Teacher Model))

Öğretmen model (teacher model), bilgi damıtma (knowledge distillation) sürecinde büyük, güçlü ve pahalı sinir ağını ifade eder; bu ağın öğrendiği bilgi daha küçük bir öğrenci modele aktarılır.

Öğretmen model (teacher model), bilgi damıtma (knowledge distillation) sürecinde büyük, güçlü ve pahalı sinir ağını ifade eder; bu ağın öğrendiği bilgi daha küçük bir öğrenci modele aktarılır. Öğretmen model, genellikle yüksek hesaplama kaynaklarıyla uzun süre eğitilmiş ve güçlü performans sergileyen bir modeldir: GPT-4, Claude Opus veya büyük ölçekli BERT varyantları bunlara örnek gösterilebilir. Öğretmen modelin rolü, eğitim sırasında öğrenciye rehberlik etmektir. Sert etiketler (ground truth) yerine olasılık dağılımları (yumuşak etiketler) üreterek öğrenciye daha zengin bilgi sinyalleri iletir. Sınıflar arasındaki benzerlik ilişkileri ve belirsizlik bilgisi bu dağılımlara kodlanır. Öğrenci, yalnızca 'doğru' sınıfı değil, 'ne kadar benzer sınıflar var' sorusunu da öğretmenden öğrenir. Modern LLM ekosisteminde öğretmen modeller iki farklı biçimde kullanılır: (1) Gerçek zamanlı damıtma: öğrenci eğitim sırasında öğretmenden canlı olarak yumuşak etiket alır, (2) Veri damıtması: öğretmen eğitimden önce büyük miktarda yüksek kaliteli sentetik veri üretir; öğrenci bu verilerle standart eğitim görür. İkinci yaklaşım özellikle Phi serisi modellerin başarısının arkasındaki temel stratejidir.

Öğretmen Model Tipleri

smart_toy Büyük LLM

GPT-4, Claude Opus, Gemini 1.5 Pro gibi frontier modeller. Sentetik veri üretimi ve çevrimdışı damıtma için kullanılır. API'ye erişim yeterlidir.

group Ensemble Öğretmen

Birden fazla modelin çıktıları ortalaması. Tek öğretmenden daha istikrarlı ve zengin yumuşak etiketler sağlar.

autorenew Kendini Damıtma

Modelin önceki versiyonundan öğrenmesi. Born-Again Networks: aynı mimariyi tekrar tekrar damıtarak performans artışı.

tune Kapı Öğretmen

Görev-spesifik öğretmenler. Karmaşık görev için büyük genel model yerine küçük ama görevde uzmanlaşmış model öğretmen olabilir.

checklist Öğretmen Seçimi Kriterleri

İyi bir öğretmen model: (1) Öğrenciden belirgin biçimde güçlü olmalı (aksi hâlde transfer edecek bilgi yoktur), (2) Öğrencinin kapasitesini aşmayan gradyan sinyalleri üretmeli (kapasiteli bir öğrenci zayıf öğretmenden çok şey öğrenemez), (3) Hedef görev ve dağılımla uyumlu olmalı. Öğretmen-öğrenci kapasite farkı çok büyükse öğrenci bazen daha küçük bir ara öğretmenden daha iyi öğrenir.

quiz Sık Sorulan Sorular

  • check_circle Öğretmen modele eğitim sırasında her zaman erişim gerekli mi?: Çevrimiçi damıtmada evet; öğretmen eğitim sırasında canlı gradyan veya çıktı sağlar. Çevrimdışı damıtmada hayır; öğretmen sadece veri üretim aşamasında gereklidir.
  • check_circle Açık kaynak öğretmen modellerle damıtma yapılabilir mi?: Evet. Llama 3 70B veya Qwen2 72B gibi açık ağırlıklı modeller, daha küçük modeller için etkili öğretmenler olarak kullanılabilir.