KL Divergence (KL Iraksaması (Kullback-Leibler Divergence))
KL Iraksaması (Kullback-Leibler Divergence — KL Sapması), iki olasılık dağılımı arasındaki farkı ölçen bir bilgi-teorik metriktir. P olasılık dağılımını Q ile yaklaşık olarak ifade etmenin 'maliyetini' — bilgi kaybını — ölçer. Formülü: KL(P‖Q) = Σ P(x) log(P(x)/Q(x)). Değerin sıfır olması iki dağılımın özdeş olduğu anlamına gelir; sıfırdan büyük değerler ise iki dağılımın ne kadar farklılaştığını gösterir.
KL iraksaması simetrik değildir: KL(P‖Q) ≠ KL(Q‖P). Bu asimetri farklı kullanım senaryolarını doğurur. 'Forward KL' (P‖Q) modelin gerçek dağılımı küçümsememesini zorlar; 'reverse KL' (Q‖P) ise modeli belirli modlara konsantre etme eğilimindedir.
Makine öğrenmesinde KL iraksamasının kritik kullanım alanları şunlardır: Bilgi damıtma (knowledge distillation) kaybı — öğretmen ve öğrenci olasılık dağılımlarının ne kadar farklı olduğunu ölçer. Değişkence otokodlayıcılar (VAE) — gizli uzayın dağılımını Gauss'a yaklaştıran düzenlileştirici terim. RLHF ve PPO — LLM ince ayarı sırasında politikanın referans modelden çok uzaklaşmamasını sağlayan kısıt terimi. Dil modeli değerlendirme — iki modelin token olasılık dağılımlarını karşılaştırmak için.