Quantization (Kuantizasyon (Model Küçültme))

Kuantizasyon, devasa boyutlardaki yapay zeka modellerinin (Örn: LLaMA, GPT) matematiksel doğruluğundan çok az taviz vererek, dosya boyutlarını ve kullandıkları belleği (RAM/VRAM) dramatik şekilde küçültme işlemidir.

Kuantizasyon, devasa boyutlardaki yapay zeka modellerinin (Örn: LLaMA, GPT) matematiksel doğruluğundan çok az taviz vererek, dosya boyutlarını ve kullandıkları belleği (RAM/VRAM) dramatik şekilde küçültme işlemidir. Bu teknik sayesinde 100 GB RAM isteyen bir model, evimizdeki bir telefona veya akıllı saate sığabilir hale gelir.

compress Ağırlıkları Sıkıştırmak

Normalde bir yapay sinir ağının parametreleri bilgisayarda yüksek hassasiyetli virgüllü sayılar (32-bit float - FP32) olarak tutulur. Örn: 3.14159265. Kuantizasyon işlemi bu sayıları yuvarlayarak çok daha az yer kaplayan düşük hassasiyetli sayılara (8-bit veya 4-bit) dönüştürür. Örn: 3.14. Elbette modelin 'zekasında' çok ufak bir düşüş yaşanır, ancak %5 zeka kaybı karşılığında modelin %80 daha az yer kaplaması ve 4 kat daha hızlı çalışması inanılmaz bir takastır.

Neden Devrimseldir?

  • check_circle Demokratikleşme: Kuantizasyon olmasaydı güçlü yapay zekalar sadece dev teknoloji şirketlerinin veri merkezlerinde çalışabilirdi. GGUF ve AWQ gibi kuantizasyon formatları sayesinde 7 Milyar parametreli bir model 4GB'lık eski bir bilgisayarda bile çalışabilmektedir.
  • check_circle Edge AI: Bulut bağlantısı olmayan otonom cihazların (uç yapay zeka) kendi içinde zeka çalıştırabilmesinin tek yoludur.