KV Cache (Anahtar-Değer Önbelleği)
KV Cache (Key-Value Cache — Anahtar-Değer Önbelleği), transformer tabanlı dil modellerinin otomatik regresif çıkarımında hesaplanmış dikkat anahtarı (Key) ve değer (Value) matrislerini yeniden hesaplamamak için bellekte saklayan bir optimizasyon mekanizmasıdır. Her yeni token üretiminde daha önce işlenen tüm tokenler için bu matrisler zaten mevcuttur; yalnızca yeni token için hesaplanması gerekir. Bu sayede çıkarım O(n²)'den O(n)'e indirilir. KV cache; VRAM tüketimi ve bağlam uzunluğu skalasını etkileyen kritik bir bileşendir.