tag TaslakModel

Bu sayfada TaslakModel etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.

Taslak Model (Draft Model), spekülatif kod çözme (speculative decoding) yönteminde büyük doğrulayıcı modele aday token dizileri öneren küçük ve hızlı dil modelidir. Spekülatif kod çözmenin temel iddiası şudur: büyük modelin her token üretimi için yaptığı hesaplamanın büyük bölümünü küçük bir model ucuza gerçekleştirebilir; büyük model yalnızca bu önerileri toplu biçimde doğrulama veya reddetme rolünü üstlenir. Spekülatif kod çözme sürecinde taslak model γ adet token sırayla üretir. Ardından büyük doğrulayıcı model bu γ tokeni tek bir ileri geçişte (forward pass) paralel olarak değerlendirir. Kabul veya ret kararı her token için bağımsız olasılık karşılaştırmasıyla verilir; büyük modelin dağılımından belirgin biçimde sapan tokenler reddedilir. Reddedilen ilk token noktasından büyük model sıralı kod çözmeye geri döner. Bu mekanizma modelin çıktı dağılımını değiştirmez; yalnızca gecikme süresini azaltır. Taslak modelin seçimi kritiktir. Büyük modelle aynı model ailesinden gelen küçük bir versiyon (örneğin Llama 3 70B ile doğrulama yapılırken Llama 3 8B taslak olarak kullanılması) yüksek token kabul oranı sağlar; taslak modelin dil dağılımı doğrulayıcıya yakın olduğunda daha az token reddedilir. Farklı mimari veya eğitimdeki bir model düşük kabul oranına yol açar ve spekülatif kod çözmenin avantajını ortadan kaldırır. Taslak modelin bellek varlığı düşük olduğundan spekülatif kod çözme GPU bellek tüketimini artırsa da net verim kazancı önemlidir: iyi ayarlanmış senaryolarda büyük modelin tek başına çalışmasına kıyasla 2–3 kat hız artışı gözlemlenir. Google'ın Medusa yaklaşımı ise ayrı bir taslak model yerine doğrulayıcı modelin kafasına ek kafa katmanları ekleyerek aday tokenler üretir.

fast_forward

Taslak Model (Taslak Model)

Taslak Model (Draft Model), spekülatif kod çözme (speculative decoding) yönteminde büyük doğrulayıcı modele aday token dizileri öneren küçük ve hızlı dil modelidir. Spekülatif kod çözmenin temel iddiası şudur: büyük modelin her token üretimi için yaptığı hesaplamanın büyük bölümünü küçük bir model ucuza gerçekleştirebilir; büyük model yalnızca bu önerileri toplu biçimde doğrulama veya reddetme rolünü üstlenir. Spekülatif kod çözme sürecinde taslak model γ adet token sırayla üretir. Ardından büyük doğrulayıcı model bu γ tokeni tek bir ileri geçişte (forward pass) paralel olarak değerlendirir. Kabul veya ret kararı her token için bağımsız olasılık karşılaştırmasıyla verilir; büyük modelin dağılımından belirgin biçimde sapan tokenler reddedilir. Reddedilen ilk token noktasından büyük model sıralı kod çözmeye geri döner. Bu mekanizma modelin çıktı dağılımını değiştirmez; yalnızca gecikme süresini azaltır. Taslak modelin seçimi kritiktir. Büyük modelle aynı model ailesinden gelen küçük bir versiyon (örneğin Llama 3 70B ile doğrulama yapılırken Llama 3 8B taslak olarak kullanılması) yüksek token kabul oranı sağlar; taslak modelin dil dağılımı doğrulayıcıya yakın olduğunda daha az token reddedilir. Farklı mimari veya eğitimdeki bir model düşük kabul oranına yol açar ve spekülatif kod çözmenin avantajını ortadan kaldırır. Taslak modelin bellek varlığı düşük olduğundan spekülatif kod çözme GPU bellek tüketimini artırsa da net verim kazancı önemlidir: iyi ayarlanmış senaryolarda büyük modelin tek başına çalışmasına kıyasla 2–3 kat hız artışı gözlemlenir. Google'ın Medusa yaklaşımı ise ayrı bir taslak model yerine doğrulayıcı modelin kafasına ek kafa katmanları ekleyerek aday tokenler üretir.

arrow_forward