KL Iraksamasının Yorumu
code Bilgi Teorisi
P yerine Q varsayarak kodlama yapmanın ekstra bit maliyeti. P'ye uygun bir kod Q için kullanıldığında oluşan verimsizliği ölçer.
warning Mesafe Değil Iraksama
KL simetrik değildir, bu nedenle mesafe (metrik) değildir. Üçgen eşitsizliğini sağlamaz. Jensen-Shannon Iraksaması (JSD) simetrik bir alternatiftir.
psychology RLHF'deki Rolü
PPO tabanlı RLHF'de KL ceza terimi, politika modelinin referans LLM'den çok uzaklaşmasını engeller; iyi dili korurken ödülü maksimize eder.
filter_alt Damıtmada KL Iraksaması
Bilgi damıtmasında toplam kayıp genellikle şöyle yazılır: L = α × CE(y, öğrenci_çıktı) + (1-α) × KL(öğretmen‖öğrenci) × T². Burada T sıcaklık parametresidir; yumuşak etiketlerin düzleştirilmesini sağlar. α katsayısı sert etiket (gerçek hedef) ile yumuşak etiket (öğretmen olasılıkları) kaybı arasındaki dengeyi ayarlar. T² terimi sıcaklık ölçeklemesinin gradyan büyüklüğünü telafi eder.
quiz Sık Sorulan Sorular
- check_circle KL iraksaması neden asimetriktir?: P(x) > 0 olduğu halde Q(x) = 0 olan noktalar KL(P‖Q)'yi sonsuz yapar; tersi geçerli değildir. Bu asimetri hangi dağılımın "referans" alındığına göre farklı optimizasyon davranışları doğurur.
- check_circle Jensen-Shannon Iraksaması ne zaman tercih edilir?: Simetrik bir ölçüm gerektiğinde; ör. iki dağılımı karşılaştırmak için referans/yaklaşım ayrımı önemli değilse. JSD her zaman sonlu bir değer verir ve [0,1] aralığındadır (JSD = ½KL(P‖M) + ½KL(Q‖M), M = (P+Q)/2).