tag Budama
Model Sıkıştırma (Model Sıkıştırma)
Bu sayfada Budama (Model Sıkıştırma (Model Sıkıştırma)) etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.
Model sıkıştırma (model compression), derin öğrenme ve makine öğrenimi modellerinin boyutunu, hesaplama maliyetini ve bellek gereksinimlerini azaltmaya yönelik tekniklerin genel adıdır. Milyarlarca parametre içeren büyük yapay zeka modelleri; eğitim sürecinde muazzam donanım kaynakları tüketir ve üretim ortamında yüksek gecikme ile enerji maliyeti yaratır. Model sıkıştırma, bu ağır modelleri orijinal doğruluk değerlerine yakın tutarken çok daha küçük, hızlı ve verimli hale getirir. Temel model sıkıştırma yöntemleri dört ana başlık altında incelenir. Birincisi budama (pruning): modeldeki önemsiz ağırlıkları veya nöronları tespit edip kaldırarak bağlantılar seyreltilir; bu yöntemle %50-90 oranında parametre azaltımı elde edilebilir. İkincisi niceleme (quantization): 32-bit kayan noktalı ağırlık değerleri 8-bit veya 4-bit tam sayılara dönüştürülür; böylece hem bellek hem de çıkarım (inference) süresi 2-8 kat iyileştirilebilir. Üçüncüsü bilgi damıtma (knowledge distillation): büyük bir öğretmen modelin yümuşak olasılık çıktıları küçük bir öğrenci modele aktarılarak kompakt ama güçlü modeller elde edilir. Dördüncüsü ise düşük ranklı ayrıştırma (low-rank factorization): büyük ağırlık matrisleri iki küçük matrisin çarpımına ayrıştırılır; LoRA ve QLoRA bu yaklaşımın modern uygulamalarıdır. Pratik ekosistemde GPTQ, AWQ, GGUF ve bitsandbytes gibi araçlar, büyük dil modellerini tüketici sınıfı GPU'larda ve hatta CPU üzerinde çalıştırılabilir hale getirmiştir. llama.cpp projesi sayesinde 70 milyar parametreli modeller sıradan dizüstü bilgisayarlarda bile çalışabilmektedir. Model sıkıştırma; akıllı telefon tabanlı konuşma tanıma, gerçek zamanlı nesne algılama, uç cihaz (edge) yapay zekası ve kaynak kısıtlı IoT sistemleri gibi alanlarda kritik önem taşımaktadır.