Temperature Scaling (Sıcaklık Ölçekleme (Temperature Scaling))

Sıcaklık ölçekleme (temperature scaling), bir sınıflandırma modelinin softmax çıktı olasılıklarını T (sıcaklık) parametresiyle düzenleyen bir kalibrasyon ve kontrol tekniğidir.

Sıcaklık ölçekleme (temperature scaling), bir sınıflandırma modelinin softmax çıktı olasılıklarını T (sıcaklık) parametresiyle düzenleyen bir kalibrasyon ve kontrol tekniğidir. Softmax fonksiyonunun girdileri (logitler) T'ye bölünür: T > 1 dağılımı düzleştirir (daha belirsiz, daha yumuşak); 0 < T < 1 ise zirveli ve keskin dağılım üretir. T → 0 limitinde model en yüksek logitli sınıfı kesinlikle seçer (greedy); T → ∞ limitinde tüm sınıflar eşit olasılık alır. Sıcaklık ölçeklemenin iki temel kullanım alanı vardır. Birincisi model kalibrasyonu: derin sinir ağları genellikle aşırı güvenli (overconfident) tahminler üretir — gerçekte %70 doğru olan durumlarda %95 olasılık söyleyebilirler. Eğitim sonrası ayrılmış bir doğrulama kümesinde T optimize edilerek modelin güveni gerçek doğrulukla hizalanır. İkincisi bilgi damıtma: öğretmen modelin yumuşak etiketleri yüksek T değerleriyle düzleştirilir; bu sayede sınıflar arası benzerlik bilgisini barındıran zengin eğitim sinyalleri öğrenci modele aktarılır. LLM metin üretiminde sıcaklık farklı bir bağlamda kullanılır: bir sonraki token seçimindeki rastgeleliği kontrol eder. Yüksek sıcaklık (T ≈ 0.8-1.0) daha yaratıcı ve çeşitli metinler; düşük sıcaklık (T ≈ 0.1-0.3) daha deterministik ve öngörülebilir çıktılar üretir. Bu ayar, API çağrılarında `temperature` parametresiyle doğrudan kontrol edilebilir.

Sıcaklık Etkisi

arrow_upward T < 1 (Keskin)

Dağılım zirveli. Model en güvendiği sınıfa yüksek olasılık atar. Metin üretimde deterministik, tekrarlı çıktı.

horizontal_rule T = 1 (Nötr)

Standart softmax. Modelin orijinal güven dağılımı. Kalibrasyon ve metin üretimde başlangıç noktası.

blur_on T > 1 (Yumuşak)

Dağılım düzleşir. Belirsizlik artar, alt sınıflar daha fazla pay alır. Damıtmada karanlık bilgi aktarımı için tercih edilir.

edit Metin Üretimde T

LLM sampling'de T yüksekse yaratıcı/çeşitli; düşükse odaklı/öngörülebilir çıktı. Genellikle 0.7-1.0 arası kullanılır.

align_horizontal_center Kalibrasyon: ECE ve Güven Hizalama

Model kalibrasyonu, tahminin olasılığının (güven) gerçek doğrulukla örtüşmesini sağlar. Kalibrasyon metriği olarak ECE (Expected Calibration Error) kullanılır. Platt scaling ve sıcaklık ölçekleme en yaygın post-hoc kalibrasyon yöntemleridir. Sıcaklık ölçekleme tek parametreli olması nedeniyle aşırı uyuma (overfitting) karşı dayanıklıdır ve genellikle daha karmaşık yöntemlere kıyasla rekabetçi kalibrasyon sağlar.

quiz Sık Sorulan Sorular

  • check_circle LLM temperature ile damıtma temperature aynı şey midir?: Kavramsal olarak aynı işlemi ifade eder — softmax dağılımını yumuşatmak — ancak kullanım amacı farklıdır. LLM sampling'de çeşitlilik kontrolü; damıtmada öğretmen bilgi aktarımı için kullanılır.
  • check_circle Top-p (nucleus sampling) ile sıcaklık arasındaki fark nedir?: Sıcaklık tüm dağılımı ölçekler; top-p ise kümülatif olasılığı p'ye ulaşana kadar token kümesini kırpar. İkisi kombinasyonlu kullanılabilir.