Distilasyon (Model Damıtma (Distilasyon))

Model damıtma (Knowledge Distillation — Bilgi Damıtma), büyük ve pahalı bir öğretmen modelin (teacher model) bilgisini küçük ve verimli bir öğrenci modele (student model) aktarma sürecidir.

Model damıtma (Knowledge Distillation — Bilgi Damıtma), büyük ve pahalı bir öğretmen modelin (teacher model) bilgisini küçük ve verimli bir öğrenci modele (student model) aktarma sürecidir. Öğretmen modelin sert sınıf etiketleri yerine yumuşak olasılık dağılımları — 'yumuşak etiketler' (soft labels) — kullanılarak öğrenci modelin eğitilmesi, öğrencinin yalnızca etiket değil modelin genelleme bilgisini de öğrenmesini sağlar. Klasik damıtma yöntemi 2015 yılında Hinton ve arkadaşları tarafından 'Distilling the Knowledge in a Neural Network' makalesiyle tanıtılmıştır. Temel fikir şudur: Büyük bir model bir sınıflandırma görevi için olasılık dağılımı ürettiğinde, yanlış sınıflar için de sıfır değil küçük pozitif olasılıklar atar. Bu 'karanlık bilgi' (dark knowledge) öğrenciye aktarıldığında eğitim sinyali zenginleşir. LLM dünyasında damıtma önemli bir rol üstlenir: GPT-4 veya Claude Opus gibi büyük modellerin ürettiği sentetik veriler ya da yumuşak etiketler kullanılarak çok daha küçük modeller (Phi-4, Gemma 2 vb.) güçlü performanslara ulaşabilmektedir. Bu yaklaşım 'spec distillation' veya 'alignment distillation' olarak da anılır. LoRA ile birleştirilen damıtma teknikleri, tüketici donanımlarında etkili ince ayar yapılmasını kolaylaştırmaktadır.

Damıtma Süreci

school Öğretmen Model

Büyük, pahalı ve yüksek doğruluklu model. Eğitim verisi üzerinde yumuşak olasılık dağılımları üretir.

label Yumuşak Etiket

Öğretmenin sınıf olasılıkları. Sıcaklık parametresiyle düzleştirilir; "karanlık bilgi"yi içerir.

person Öğrenci Model

Küçük, hızlı ve verimli hedef model. Öğretmenin yumuşak etiketlerini taklit ederek eğitilir.

calculate Damıtma Kaybı

KL sapması + çapraz entropi kombinasyonu; öğrencinin öğretmenden ne kadar sapacağını ölçer.

rocket_launch LLM Damıtmasında Kullanım Senaryoları

Büyük modelden veri üretimi: GPT-4 veya Claude büyük miktarda kaliteli eğitim verisi üretir; bu veriyle küçük model ince ayarlıdır. Yanıt damıtması: Büyük modelin çıktıları (hem yanıt hem logitler) küçük model için hedef olarak kullanılır. Hizalama damıtması: Büyük modelin güvenli ve yararlı davranışı küçük modele aktarılır. Phi-4, Gemma 2 ve Qwen serileri bu yaklaşımdan yoğun şekilde yararlanmaktadır.

quiz Sık Sorulan Sorular

  • check_circle Damıtma ile fine-tuning arasındaki fark nedir?: Fine-tuning orijinal veriyle modeli güncellerken, damıtma başka bir modelin çıktılarından öğrenir. İkisi kombine edilebilir: öğretmen verisini fine-tuning ile uygulamak yaygın bir yaklaşımdır.
  • check_circle Öğretmen modeline erişim şart mı?: Klasik damıtmada eğitim sırasında öğretmene erişim gerekir. Veri damıtmasında ise öğretmenin önceden ürettiği yanıtlar kullanılır; canlı erişim gerekmez.