Otoregresif Üretim Adım Adım
Model ilk token olarak başlangıç özel tokeni alır. Giriş transformer katmanlarından geçirilerek her kelime dağarcığı tokeni için logit puanları hesaplanır; softmax bu puanları olasılık dağılımına çevirir. Seçilen kod çözme stratejisine göre (greedy, top-p vb.) bir sonraki token örneklenir ve bağlama eklenir. Bu döngü bitiş tokeni üretilene ya da maksimum uzunluk aşılana kadar tekrar eder. Her döngüde yalnızca son token yeni; önceki tokenların dikkat matrisleri KV önbelleğinden alınır.
Kod Çözme Stratejileri
Açgözlü (Greedy)
Her adımda en yüksek olasılıklı tokeni seçer; en hızlı ama en az çeşitli strateji.
Işın Araması (Beam)
K aday diziyi paralel takip eder; makine çevirisi gibi kesin görevlerde kaliteyi artırır.
Top-p (Nucleus)
Kümülatif olasılık p'ye ulaşana kadar en olası tokenler arasından örnekler; uyarlanabilir sözlük boyutu.
Sıcaklık Örneklemesi
T<1 dağılımı keskinleştirerek odaklanır; T>1 yumuşatarak yaratıcı ve çeşitli çıktılar üretir.
Performans Optimizasyonları
- check_circle KV Önbelleği: Önceki adımlarda hesaplanan Anahtar-Değer matrisleri saklanır; her adımda yeniden hesaplama yerine önbellekten okunur.
- check_circle Spekülatif Kod Çözme: Küçük taslak model birden çok token önerir; büyük model paralel olarak doğrular ve reddettiği noktadan yeniden başlar.
- check_circle Sürekli Toplu İşleme: Birden fazla kullanıcı isteği aynı anda işlenir; boş GPU kapasitesi atıl kalmaz ve verim artar.
- check_circle Flash Attention: Dikkat hesaplamasını IO açısından verimli bloklamalarla gerçekleştirir; uzun bağlam pencerelerinde bellek tüketimini azaltır.
Sıkça Sorulan Sorular
- check_circle Neden otoregresif kod çözme yavaş?: Her token sırayla üretilmek zorunda; bir sonraki token önceki tokeni gerektirir, bu da GPU paralelizmini kısıtlar. 1000 token üretmek 1000 seri adım demektir.
- check_circle Temperature 0 ne anlama gelir?: Temperature 0 greedy kod çözmeye eşdeğerdir; model her adımda deterministik olarak en yüksek olasılıklı tokeni seçer. Aynı prompt her zaman aynı çıktıyı üretir.
- check_circle Spekülatif kod çözme neden daha hızlı?: Küçük taslak model N token önerir; büyük doğrulayıcı model bu N tokeni tek paralel geçişte değerlendirir. Öneriler kabul edilirse N token maliyeti tek token maliyetiyle ödenir.