Quantization (Kuantizasyon (Model Küçültme))

#ModelEgitimi #EdgeAI #LLM #Donanim #Optimizasyon

Kuantizasyon, devasa boyutlardaki yapay zeka modellerinin (Örn: LLaMA, GPT) matematiksel doğruluğundan çok az taviz vererek, dosya boyutlarını ve kullandıkları belleği (RAM/VRAM) dramatik şekilde küçültme işlemidir. Bu teknik sayesinde 100 GB RAM isteyen bir model, evimizdeki bir telefona veya akıllı saate sığabilir hale gelir.

compress Ağırlıkları Sıkıştırmak

Normalde bir yapay sinir ağının parametreleri bilgisayarda yüksek hassasiyetli virgüllü sayılar (32-bit float - FP32) olarak tutulur. Örn: 3.14159265. Kuantizasyon işlemi bu sayıları yuvarlayarak çok daha az yer kaplayan düşük hassasiyetli sayılara (8-bit veya 4-bit) dönüştürür. Örn: 3.14. Elbette modelin 'zekasında' çok ufak bir düşüş yaşanır, ancak %5 zeka kaybı karşılığında modelin %80 daha az yer kaplaması ve 4 kat daha hızlı çalışması inanılmaz bir takastır.

Neden Devrimseldir?

check_circle Demokratikleşme: Kuantizasyon olmasaydı güçlü yapay zekalar sadece dev teknoloji şirketlerinin veri merkezlerinde çalışabilirdi. GGUF ve AWQ gibi kuantizasyon formatları sayesinde 7 Milyar parametreli bir model 4GB'lık eski bir bilgisayarda bile çalışabilmektedir.
check_circle Edge AI: Bulut bağlantısı olmayan otonom cihazların (uç yapay zeka) kendi içinde zeka çalıştırabilmesinin tek yoludur.

Kuantizasyon Yöntemleri

check_circle Post-Training Quantization (PTQ): Eğitim tamamlandıktan sonra ağırlıklar dönüştürülür — yeniden eğitim yok. GPTQ: GPU üzerinde, katman katman hata minimize ederek INT4/INT8. AWQ: aktivasyon dağılımı gözeterek önemli ağırlıklara daha yüksek hassasiyet. GGUF (llama.cpp): CPU/GPU hibrid çıkarım; Q2-Q8 seçeneği.
check_circle Quantization-Aware Training (QAT): Eğitim sırasında kuantizasyon hatasını simüle eder. Sonuç: PTQ'dan daha az doğruluk kaybı — yeniden eğitim maliyeti gerekli. Edge cihazlar için tercih: mobil ve IoT modellerinde QAT standarttır. Google Gemma ve Phi gibi modeller QAT versiyonları sunmaya başladı.
check_circle Hassasiyet Formatları: FP32 (float32): 4 byte; tam hassasiyet; büyük bellek. BF16: 2 byte; FP32 aralığı, düşük hassasiyet; eğitimde yaygın. INT8: 1 byte; basit matris çarpımı; çıkarımda yaygın (LLM.int8()). INT4: 0.5 byte; GPTQ ve AWQ; 2-4× bellek tasarrufu. INT2 ve 1-bit: araştırma aşaması; ciddi kalite kaybı riski.

Kuantizasyonun Bellek ve Hız Etkisi

70B model örneği: FP16 → 140GB VRAM (2×H100 gerekir); INT8 → 70GB (1×H100); INT4 → 35GB (1×A100 40GB ile sığar); Q4 CPU → 40GB RAM ile MacBook'ta çalışır. Hız etkisi: INT8/INT4 genellikle FP16'dan daha hızlı — bellek bant genişliği darboğazı azalır. Doğruluk kaybı: INT8 çoğu görevde ihmal edilebilir (<1%); INT4 benchmark'larda %1-5 düşüş tipik; Q2 ciddi düşüş riski. Araçlar: bitsandbytes, GPTQ (AutoGPTQ), llama.cpp, Ollama (GGUF), Intel Neural Compressor.