Speculative Decoding (Spekülatif Kod Çözme)
Speculative Decoding (Spekülatif Kod Çözme), büyük bir dil modelinin (hedef model) çıktısını daha küçük ve hızlı bir taslak model (draft model) yardımıyla hızlandıran bir çıkarım (inference) tekniğidir. Taslak model birkaç token üretir; hedef model bu tokenleri paralel olarak doğrular. Kabul edilen tokenler anında çıktıya eklenir. Matematiksel olarak çıktı kalitesi değişmez (lossless), ancak duvar saati süresi 2-4× kısalabilir.