Taslak Model

#TaslakModel #SpekulatifKodCozme #Inference #LLM #Gecikme

Taslak Model, spekülatif kod çözmede büyük doğrulayıcı modele hızlıca aday token dizileri öneren küçük ve hızlı dil modelidir.

Taslak Model (Draft Model), spekülatif kod çözme (speculative decoding) yönteminde büyük doğrulayıcı modele aday token dizileri öneren küçük ve hızlı dil modelidir. Spekülatif kod çözmenin temel iddiası şudur: büyük modelin her token üretimi için yaptığı hesaplamanın büyük bölümünü küçük bir model ucuza gerçekleştirebilir; büyük model yalnızca bu önerileri toplu biçimde doğrulama veya reddetme rolünü üstlenir. Spekülatif kod çözme sürecinde taslak model γ adet token sırayla üretir. Ardından büyük doğrulayıcı model bu γ tokeni tek bir ileri geçişte (forward pass) paralel olarak değerlendirir. Kabul veya ret kararı her token için bağımsız olasılık karşılaştırmasıyla verilir; büyük modelin dağılımından belirgin biçimde sapan tokenler reddedilir. Reddedilen ilk token noktasından büyük model sıralı kod çözmeye geri döner. Bu mekanizma modelin çıktı dağılımını değiştirmez; yalnızca gecikme süresini azaltır. Taslak modelin seçimi kritiktir. Büyük modelle aynı model ailesinden gelen küçük bir versiyon (örneğin Llama 3 70B ile doğrulama yapılırken Llama 3 8B taslak olarak kullanılması) yüksek token kabul oranı sağlar; taslak modelin dil dağılımı doğrulayıcıya yakın olduğunda daha az token reddedilir. Farklı mimari veya eğitimdeki bir model düşük kabul oranına yol açar ve spekülatif kod çözmenin avantajını ortadan kaldırır. Taslak modelin bellek varlığı düşük olduğundan spekülatif kod çözme GPU bellek tüketimini artırsa da net verim kazancı önemlidir: iyi ayarlanmış senaryolarda büyük modelin tek başına çalışmasına kıyasla 2–3 kat hız artışı gözlemlenir. Google'ın Medusa yaklaşımı ise ayrı bir taslak model yerine doğrulayıcı modelin kafasına ek kafa katmanları ekleyerek aday tokenler üretir.

Spekülatif Kod Çözme Nasıl Çalışır?

Taslak model γ (genellikle 4–8) token sırayla üretir ve bunları doğrulayıcı modele iletir. Doğrulayıcı model, bu γ tokeni paralel olarak tek bir ileri geçişte değerlendirir ve her token için kendi dağılımını hesaplar. Kabul-ret kararı olasılık oranıyla belirlenir: taslak modelin seçimi büyük modelin seçimiyle uyuşuyorsa kabul edilir; büyük modelin dağılımından çok saptıysa reddedilir ve bu noktadan büyük model devralır. Temel özellik: hiçbir durumda çıktı dağılımı değişmez, yalnızca hız artar.

Taslak Model Seçim Kriterleri

Aynı Mimari Ailesi

Doğrulayıcıyla aynı aileden küçük model (8B vs 70B) dağılım uyumu sağlar; yüksek kabul oranı verir.

Düşük Gecikme

Taslak modelin γ token üretme süresi, doğrulayıcının bir token üretme süresinden kısa olmalıdır.

Bellek Baskısı

Taslak model ek VRAM tüketir; seçilen boyut mevcut bellek bütçesiyle uyumlu olmalıdır.

Medusa Alternatifi

Ayrı model yerine doğrulayıcıya eklenen kafa katmanları (Medusa heads) ayrı modelden düşük bellek kullanır.

Kullanım Alanları

check_circle Üretim Çıkarım Sunucuları: vLLM ve TGI gibi çerçeveler spekülatif kod çözmeyi entegre ederek yüksek trafikli API hizmetlerinde gecikmeyi düşürür.
check_circle Uzun Metin Üretimi: Binlerce token üretilen blog yazısı veya kod dosyası gibi görevlerde hız kazancı birikimli olarak büyür.
check_circle Sohbet Asistanları: İlk token süresini değiştirmeden ardışık tokenlerin üretim hızını artırarak algılanan yanıt hızını iyileştirir.
check_circle Donanım Optimizasyonu: GPU'nun boş paralel kapasitesini taslak token doğrulamasında kullanarak atıl hesaplama gücünü verimli işler.

Sıkça Sorulan Sorular

check_circle Spekülatif kod çözme çıktı kalitesini etkiler mi?: Hayır. Matematiksel olarak kanıtlanmıştır: spekülatif kod çözme ile elde edilen çıktı dağılımı, büyük modelin doğrudan sıralı kod çözmesiyle ürettiği dağılımla özdeştir.
check_circle Taslak model kabul oranı düşük olursa ne olur?: Düşük kabul oranı (düşük token acceptance rate) spekülatif kod çözmeyi geleneksel otoregresif kod çözmeden daha yavaş kılabilir. Bu durumda taslak model değiştirmek veya γ değerini azaltmak gerekir.
check_circle Self-speculative decoding nedir?: Ayrı bir model olmadan aynı modelin erken katmanlarından çıkan tahminleri taslak olarak kullanan yaklaşımdır; ek model belleği gerektirmeden spekülatif avantaj sağlar.