tag Gecikme
Taslak Model (Taslak Model)
Bu sayfada Gecikme (Taslak Model (Taslak Model)) etiketi ile işaretlenmiş 2 yapay zeka kavramını bulabilirsiniz.
Taslak Model (Draft Model), spekülatif kod çözme (speculative decoding) yönteminde büyük doğrulayıcı modele aday token dizileri öneren küçük ve hızlı dil modelidir. Spekülatif kod çözmenin temel iddiası şudur: büyük modelin her token üretimi için yaptığı hesaplamanın büyük bölümünü küçük bir model ucuza gerçekleştirebilir; büyük model yalnızca bu önerileri toplu biçimde doğrulama veya reddetme rolünü üstlenir. Spekülatif kod çözme sürecinde taslak model γ adet token sırayla üretir. Ardından büyük doğrulayıcı model bu γ tokeni tek bir ileri geçişte (forward pass) paralel olarak değerlendirir. Kabul veya ret kararı her token için bağımsız olasılık karşılaştırmasıyla verilir; büyük modelin dağılımından belirgin biçimde sapan tokenler reddedilir. Reddedilen ilk token noktasından büyük model sıralı kod çözmeye geri döner. Bu mekanizma modelin çıktı dağılımını değiştirmez; yalnızca gecikme süresini azaltır. Taslak modelin seçimi kritiktir. Büyük modelle aynı model ailesinden gelen küçük bir versiyon (örneğin Llama 3 70B ile doğrulama yapılırken Llama 3 8B taslak olarak kullanılması) yüksek token kabul oranı sağlar; taslak modelin dil dağılımı doğrulayıcıya yakın olduğunda daha az token reddedilir. Farklı mimari veya eğitimdeki bir model düşük kabul oranına yol açar ve spekülatif kod çözmenin avantajını ortadan kaldırır. Taslak modelin bellek varlığı düşük olduğundan spekülatif kod çözme GPU bellek tüketimini artırsa da net verim kazancı önemlidir: iyi ayarlanmış senaryolarda büyük modelin tek başına çalışmasına kıyasla 2–3 kat hız artışı gözlemlenir. Google'ın Medusa yaklaşımı ise ayrı bir taslak model yerine doğrulayıcı modelin kafasına ek kafa katmanları ekleyerek aday tokenler üretir.
Taslak Model (Taslak Model)
Taslak Model (Draft Model), spekülatif kod çözme (speculative decoding) yönteminde büyük doğrulayıcı modele aday token dizileri öneren küçük ve hızlı dil modelidir. Spekülatif kod çözmenin temel iddiası şudur: büyük modelin her token üretimi için yaptığı hesaplamanın büyük bölümünü küçük bir model ucuza gerçekleştirebilir; büyük model yalnızca bu önerileri toplu biçimde doğrulama veya reddetme rolünü üstlenir. Spekülatif kod çözme sürecinde taslak model γ adet token sırayla üretir. Ardından büyük doğrulayıcı model bu γ tokeni tek bir ileri geçişte (forward pass) paralel olarak değerlendirir. Kabul veya ret kararı her token için bağımsız olasılık karşılaştırmasıyla verilir; büyük modelin dağılımından belirgin biçimde sapan tokenler reddedilir. Reddedilen ilk token noktasından büyük model sıralı kod çözmeye geri döner. Bu mekanizma modelin çıktı dağılımını değiştirmez; yalnızca gecikme süresini azaltır. Taslak modelin seçimi kritiktir. Büyük modelle aynı model ailesinden gelen küçük bir versiyon (örneğin Llama 3 70B ile doğrulama yapılırken Llama 3 8B taslak olarak kullanılması) yüksek token kabul oranı sağlar; taslak modelin dil dağılımı doğrulayıcıya yakın olduğunda daha az token reddedilir. Farklı mimari veya eğitimdeki bir model düşük kabul oranına yol açar ve spekülatif kod çözmenin avantajını ortadan kaldırır. Taslak modelin bellek varlığı düşük olduğundan spekülatif kod çözme GPU bellek tüketimini artırsa da net verim kazancı önemlidir: iyi ayarlanmış senaryolarda büyük modelin tek başına çalışmasına kıyasla 2–3 kat hız artışı gözlemlenir. Google'ın Medusa yaklaşımı ise ayrı bir taslak model yerine doğrulayıcı modelin kafasına ek kafa katmanları ekleyerek aday tokenler üretir.
Token Kabul Oranı (Token Kabul Oranı)
Token Kabul Oranı (Token Acceptance Rate), spekülatif kod çözme sistemlerinde taslak modelin önerdiği tokenlerin büyük doğrulayıcı model tarafından kabul edilme yüzdesini ölçen verim metriğidir. Bu oran, spekülatif kod çözmenin pratikte ne kadar etkin çalıştığını değerlendirmenin temel göstergesidir. Spekülatif kod çözmede taslak model γ adet aday token önerir; doğrulayıcı model bunları değerlendirerek kabul veya reddeder. Eğer γ=8 öneride 6 tanesi kabul ediliyorsa token kabul oranı %75'tir. Kabul oranı yüksek olduğunda her doğrulayıcı geçişinden daha fazla yeni token kazanılır; bu durum fiili hız çarpanını artırır. Kabul oranı düştükçe spekülatif kod çözme geleneksel otoregresif kod çözmeye kıyasla avantajını yitirir ve belirli bir eşiğin altında geleneksel kod çözme daha verimli hâle gelir. Token kabul oranını etkileyen başlıca faktörler şunlardır: taslak modelin büyük modelle dağılım uyumu (kalibrasyonu), görev tipi, kontekst uzunluğu ve sıcaklık değeri. Aynı model ailesinden seçilen taslak modeller (LLaMA 3 8B + LLaMA 3 70B) dağılım uyumu yüksek olduğundan genellikle %80 üzerinde kabul oranı sağlar. Çeviri ve kod tamamlama gibi tahmin edilebilir görevler yaratıcı metin üretimine kıyasla daha yüksek kabul oranı verir. Token kabul oranı ile ortalama kabul uzunluğu (average accepted length, α) arasında doğrudan ilişki vardır. α değeri her doğrulayıcı geçişinde kabul edilen ortalama token sayısını gösterir ve teorik hız çarpanı (1 + α) olarak hesaplanır. Örneğin α=3 olduğunda teorik hız 4× artar. Pratikte bu değer GPU bellek bant genişliği ve model boyutu gibi faktörlere bağlı olarak değişir.