compress Ağırlıkları Sıkıştırmak
Normalde bir yapay sinir ağının parametreleri bilgisayarda yüksek hassasiyetli virgüllü sayılar (32-bit float - FP32) olarak tutulur. Örn: 3.14159265. Kuantizasyon işlemi bu sayıları yuvarlayarak çok daha az yer kaplayan düşük hassasiyetli sayılara (8-bit veya 4-bit) dönüştürür. Örn: 3.14. Elbette modelin 'zekasında' çok ufak bir düşüş yaşanır, ancak %5 zeka kaybı karşılığında modelin %80 daha az yer kaplaması ve 4 kat daha hızlı çalışması inanılmaz bir takastır.
Neden Devrimseldir?
- check_circle Demokratikleşme: Kuantizasyon olmasaydı güçlü yapay zekalar sadece dev teknoloji şirketlerinin veri merkezlerinde çalışabilirdi. GGUF ve AWQ gibi kuantizasyon formatları sayesinde 7 Milyar parametreli bir model 4GB'lık eski bir bilgisayarda bile çalışabilmektedir.
- check_circle Edge AI: Bulut bağlantısı olmayan otonom cihazların (uç yapay zeka) kendi içinde zeka çalıştırabilmesinin tek yoludur.