Spekülatif Kod Çözme Nasıl Çalışır?
Taslak model γ (genellikle 4–8) token sırayla üretir ve bunları doğrulayıcı modele iletir. Doğrulayıcı model, bu γ tokeni paralel olarak tek bir ileri geçişte değerlendirir ve her token için kendi dağılımını hesaplar. Kabul-ret kararı olasılık oranıyla belirlenir: taslak modelin seçimi büyük modelin seçimiyle uyuşuyorsa kabul edilir; büyük modelin dağılımından çok saptıysa reddedilir ve bu noktadan büyük model devralır. Temel özellik: hiçbir durumda çıktı dağılımı değişmez, yalnızca hız artar.
Taslak Model Seçim Kriterleri
Aynı Mimari Ailesi
Doğrulayıcıyla aynı aileden küçük model (8B vs 70B) dağılım uyumu sağlar; yüksek kabul oranı verir.
Düşük Gecikme
Taslak modelin γ token üretme süresi, doğrulayıcının bir token üretme süresinden kısa olmalıdır.
Bellek Baskısı
Taslak model ek VRAM tüketir; seçilen boyut mevcut bellek bütçesiyle uyumlu olmalıdır.
Medusa Alternatifi
Ayrı model yerine doğrulayıcıya eklenen kafa katmanları (Medusa heads) ayrı modelden düşük bellek kullanır.
Kullanım Alanları
- check_circle Üretim Çıkarım Sunucuları: vLLM ve TGI gibi çerçeveler spekülatif kod çözmeyi entegre ederek yüksek trafikli API hizmetlerinde gecikmeyi düşürür.
- check_circle Uzun Metin Üretimi: Binlerce token üretilen blog yazısı veya kod dosyası gibi görevlerde hız kazancı birikimli olarak büyür.
- check_circle Sohbet Asistanları: İlk token süresini değiştirmeden ardışık tokenlerin üretim hızını artırarak algılanan yanıt hızını iyileştirir.
- check_circle Donanım Optimizasyonu: GPU'nun boş paralel kapasitesini taslak token doğrulamasında kullanarak atıl hesaplama gücünü verimli işler.
Sıkça Sorulan Sorular
- check_circle Spekülatif kod çözme çıktı kalitesini etkiler mi?: Hayır. Matematiksel olarak kanıtlanmıştır: spekülatif kod çözme ile elde edilen çıktı dağılımı, büyük modelin doğrudan sıralı kod çözmesiyle ürettiği dağılımla özdeştir.
- check_circle Taslak model kabul oranı düşük olursa ne olur?: Düşük kabul oranı (düşük token acceptance rate) spekülatif kod çözmeyi geleneksel otoregresif kod çözmeden daha yavaş kılabilir. Bu durumda taslak model değiştirmek veya γ değerini azaltmak gerekir.
- check_circle Self-speculative decoding nedir?: Ayrı bir model olmadan aynı modelin erken katmanlarından çıkan tahminleri taslak olarak kullanan yaklaşımdır; ek model belleği gerektirmeden spekülatif avantaj sağlar.