tag ContinuousBatching

Bu sayfada ContinuousBatching etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Continuous Batching (Sürekli Toplu İşlem)

Continuous Batching (Sürekli Toplu İşlem), LLM çıkarım sunucularında gelen istekleri statik batch'ler yerine sürekli, iterasyon bazlı dinamik gruplar hâlinde işleyen bir zamanlama tekniğidir. Geleneksel statik batching'de tüm istekler aynı uzunluğa tamamlanana kadar GPU boşta bekler; bu GPU kullanımını düşürür. Continuous batching ise her decoding adımında yeni isteklerin batch'e eklenmesine ve tamamlananların batch'ten çıkarılmasına olanak tanır. 2023'te vLLM'nin PagedAttention ile birlikte bu tekniği popülerleştirmesiyle LLM servis verimliliği dramatik biçimde arttı. Continuous batching sayesinde GPU, kısa isteklerin bitimini beklemek yerine sürekli aktif kalır; bu da throughput'u (saniyede işlenen token) 10-20× iyileştirir. Değişken uzunluktaki isteklerin yoğun olduğu üretim ortamlarında bu kazanım kritik önem taşır. Teknik açıdan continuous batching; ön-doldurma (prefill) ve kod-çözme (decode) aşamalarının ayrılması, iterasyon düzeyinde zamanlama, KV cache yönetimi ve öncelik kuyrukları bileşenlerine dayanır. vLLM, TensorRT-LLM, SGLang ve TGI (Text Generation Inference) bu tekniği üretime hazır şekilde destekler. Özellikle çoklu kullanıcı API servislerinde sabit GPU kapasitesiyle daha yüksek istek kapasitesi sunabilmek için vazgeçilmez hâle gelmiştir.

arrow_forward