tag Distilasyon
Bu sayfada Distilasyon etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.
Distilasyon (Model Damıtma (Distilasyon))
Model damıtma (Knowledge Distillation — Bilgi Damıtma), büyük ve pahalı bir öğretmen modelin (teacher model) bilgisini küçük ve verimli bir öğrenci modele (student model) aktarma sürecidir. Öğretmen modelin sert sınıf etiketleri yerine yumuşak olasılık dağılımları — 'yumuşak etiketler' (soft labels) — kullanılarak öğrenci modelin eğitilmesi, öğrencinin yalnızca etiket değil modelin genelleme bilgisini de öğrenmesini sağlar. Klasik damıtma yöntemi 2015 yılında Hinton ve arkadaşları tarafından 'Distilling the Knowledge in a Neural Network' makalesiyle tanıtılmıştır. Temel fikir şudur: Büyük bir model bir sınıflandırma görevi için olasılık dağılımı ürettiğinde, yanlış sınıflar için de sıfır değil küçük pozitif olasılıklar atar. Bu 'karanlık bilgi' (dark knowledge) öğrenciye aktarıldığında eğitim sinyali zenginleşir. LLM dünyasında damıtma önemli bir rol üstlenir: GPT-4 veya Claude Opus gibi büyük modellerin ürettiği sentetik veriler ya da yumuşak etiketler kullanılarak çok daha küçük modeller (Phi-4, Gemma 2 vb.) güçlü performanslara ulaşabilmektedir. Bu yaklaşım 'spec distillation' veya 'alignment distillation' olarak da anılır. LoRA ile birleştirilen damıtma teknikleri, tüketici donanımlarında etkili ince ayar yapılmasını kolaylaştırmaktadır.
Soft Labels (Yumuşak Etiketler (Soft Labels))
Yumuşak etiketler (soft labels), bir sınıflandırma modelinin kesin ('kedi: 1, köpek: 0') one-hot kodlu etiketler (sert etiketler, hard labels) yerine olasılık dağılımlarını ('kedi: 0.8, köpek: 0.15, diğer: 0.05') hedef olarak kullanmasını ifade eder. Bu yaklaşım özellikle bilgi damıtma (knowledge distillation) sürecinde öğretmen modelin ürettiği tahmin dağılımlarını öğrenci modele aktarmanın yolu olarak kritik bir rol üstlenir. Sert etiketlerin aksine yumuşak etiketler 'karanlık bilgi' (dark knowledge) taşır: öğretmen model, yanlış sınıflar için de sıfır olmayan küçük olasılıklar atar. Örneğin bir 'kedi' görüntüsü için model 'kaplan: 0.03' skoru verebilir — bu, iki sınıf arasındaki görsel benzerliği kodlar. Öğrenci model bu ilişkileri öğrenince genelleme kapasitesi artar. Sıcaklık parametresi (temperature), yumuşak etiket üretiminde kritiktir. T > 1 değerleri dağılımı daha yumuşak ve bilgisi zengin hale getirir; T = 1 standart softmax çıktısına karşılık gelir. Damıtma sürecinde öğretmen hem yüksek T ile üretilen yumuşak etiketleri hem de gerçek etiketler üzerinden hesaplanan doğruluk kaybını birlikte öğrenciye aktarır. Geoffrey Hinton'ın 2015 tarihli öncü çalışması bu temeli atmıştır.
Student Model (Öğrenci Model (Student Model))
Öğrenci model (student model), bilgi damıtma (knowledge distillation) sürecinde daha büyük ve güçlü bir öğretmen modelden (teacher model) bilgi aktarımı alarak eğitilen küçük ve hafif sinir ağıdır. Öğrenci modelin hedefi, öğretmenin performansına mümkün olduğunca yaklaşmak — ancak çok daha az parametreyle ve dolayısıyla daha düşük hesaplama maliyetiyle. Geleneksel eğitimde model gerçek etiketlerden (one-hot) öğrenir. Damıtma yaklaşımında öğrenci ek olarak öğretmenin yumuşak çıktılarını (olasılık dağılımları) hedef alır. Bu sayede öğretmenin genelleştirme bilgisi, sınıflar arası benzerlik ilişkileri ve 'karanlık bilgi' öğrenciye aktarılır. Öğrenci model çoğunlukla aynı veya benzer mimariyi kullanır ancak daha az katman veya daha dar katmanlar içerir. LLM damıtmasında öğrenci modelin önemi daha da büyümüştür. Phi-4 (Microsoft), Gemma 3 (Google) ve Qwen 3 gibi küçük dil modelleri (SLM), GPT-4 veya Claude gibi öğretmen modellerden üretilen sentetik verilerle eğitilerek boyutlarına kıyasla olağanüstü performans sergilemektedir. Bu 'spec distillation' yaklaşımı, tüketici cihazları ve uç (edge) sistemleri için güçlü modeller üretmenin pratik yolu haline gelmiştir.
Teacher Model (Öğretmen Model (Teacher Model))
Öğretmen model (teacher model), bilgi damıtma (knowledge distillation) sürecinde büyük, güçlü ve pahalı sinir ağını ifade eder; bu ağın öğrendiği bilgi daha küçük bir öğrenci modele aktarılır. Öğretmen model, genellikle yüksek hesaplama kaynaklarıyla uzun süre eğitilmiş ve güçlü performans sergileyen bir modeldir: GPT-4, Claude Opus veya büyük ölçekli BERT varyantları bunlara örnek gösterilebilir. Öğretmen modelin rolü, eğitim sırasında öğrenciye rehberlik etmektir. Sert etiketler (ground truth) yerine olasılık dağılımları (yumuşak etiketler) üreterek öğrenciye daha zengin bilgi sinyalleri iletir. Sınıflar arasındaki benzerlik ilişkileri ve belirsizlik bilgisi bu dağılımlara kodlanır. Öğrenci, yalnızca 'doğru' sınıfı değil, 'ne kadar benzer sınıflar var' sorusunu da öğretmenden öğrenir. Modern LLM ekosisteminde öğretmen modeller iki farklı biçimde kullanılır: (1) Gerçek zamanlı damıtma: öğrenci eğitim sırasında öğretmenden canlı olarak yumuşak etiket alır, (2) Veri damıtması: öğretmen eğitimden önce büyük miktarda yüksek kaliteli sentetik veri üretir; öğrenci bu verilerle standart eğitim görür. İkinci yaklaşım özellikle Phi serisi modellerin başarısının arkasındaki temel stratejidir.
Temperature Scaling (Sıcaklık Ölçekleme (Temperature Scaling))
Sıcaklık ölçekleme (temperature scaling), bir sınıflandırma modelinin softmax çıktı olasılıklarını T (sıcaklık) parametresiyle düzenleyen bir kalibrasyon ve kontrol tekniğidir. Softmax fonksiyonunun girdileri (logitler) T'ye bölünür: T > 1 dağılımı düzleştirir (daha belirsiz, daha yumuşak); 0 < T < 1 ise zirveli ve keskin dağılım üretir. T → 0 limitinde model en yüksek logitli sınıfı kesinlikle seçer (greedy); T → ∞ limitinde tüm sınıflar eşit olasılık alır. Sıcaklık ölçeklemenin iki temel kullanım alanı vardır. Birincisi model kalibrasyonu: derin sinir ağları genellikle aşırı güvenli (overconfident) tahminler üretir — gerçekte %70 doğru olan durumlarda %95 olasılık söyleyebilirler. Eğitim sonrası ayrılmış bir doğrulama kümesinde T optimize edilerek modelin güveni gerçek doğrulukla hizalanır. İkincisi bilgi damıtma: öğretmen modelin yumuşak etiketleri yüksek T değerleriyle düzleştirilir; bu sayede sınıflar arası benzerlik bilgisini barındıran zengin eğitim sinyalleri öğrenci modele aktarılır. LLM metin üretiminde sıcaklık farklı bir bağlamda kullanılır: bir sonraki token seçimindeki rastgeleliği kontrol eder. Yüksek sıcaklık (T ≈ 0.8-1.0) daha yaratıcı ve çeşitli metinler; düşük sıcaklık (T ≈ 0.1-0.3) daha deterministik ve öngörülebilir çıktılar üretir. Bu ayar, API çağrılarında `temperature` parametresiyle doğrudan kontrol edilebilir.