tag Quantization

Float16 / BFloat16 (Float16 / BFloat16)

Bu sayfada Quantization (Float16 / BFloat16 (Float16 / BFloat16)) etiketi ile işaretlenmiş 3 yapay zeka kavramını bulabilirsiniz.

Float16 (FP16) ve BFloat16 (BF16), derin öğrenme modellerinde ağırlıkları ve aktivasyonları depolamak için kullanılan 16-bit kayan noktalı sayı formatlarıdır. 32-bit (FP32) formata kıyasla bellek tüketimini ve hesaplama süresini yarıya indirirken makul doğruluk sağlar.

memory

Float16 / BFloat16 (Float16 / BFloat16)

Float16 (FP16) ve BFloat16 (BF16), derin öğrenme modellerinde ağırlıkları ve aktivasyonları depolamak için kullanılan 16-bit kayan noktalı sayı formatlarıdır. 32-bit (FP32) formata kıyasla bellek tüketimini ve hesaplama süresini yarıya indirirken makul doğruluk sağlar.

arrow_forward
play_arrow

Inference (Çıkarım (Model Çıkarımı))

Çıkarım (Inference), eğitilmiş bir yapay zeka modelinin yeni girdilere yanıt üretmek için kullanıldığı süreçtir. Eğitim aşamasının aksine, çıkarım sırasında model ağırlıkları güncellenmez; model yalnızca ileri besleme (forward pass) yapar. Büyük dil modellerinde çıkarım, prefill ve decode olmak üzere iki aşamadan oluşur. Prefill aşamasında giriş tokenlerinin tamamı paralel olarak işlenir ve KV önbelleği (KV cache) doldurulur; bu aşama GPU paralelizminden yüksek oranda yararlanır. Decode aşamasında ise model her seferinde bir token üretir ve KV önbelleğini günceller; bu aşama bellek bant genişliğiyle sınırlıdır (memory-bound). Çıkarım optimizasyonu, üretim sistemlerinde kritik öneme sahiptir. Temel metrikler: gecikme (latency — ilk token süresi ve token başına süre), verim (throughput — saniyede üretilen token sayısı), bellek kullanımı. Başlıca optimizasyon teknikleri şunlardır: Niceleme (Quantization): FP16/BF16, INT8, INT4 ile model boyutunu küçültme. KV Cache Yönetimi: PagedAttention ve prefix caching ile bellek verimliliği. Batch Processing: Birden fazla isteği birleştiren continuous batching. Flash Attention: Bellek verimli dikkat hesaplama. Spekülatif Kod Çözme: Küçük taslak modelle büyük modeli hızlandırma. Çıkarım altyapısı için vLLM, TGI (Text Generation Inference), TensorRT-LLM ve Ollama gibi özelleşmiş araçlar geliştirilmiştir. Bulut sağlayıcılar (OpenAI API, Anthropic API, AWS Bedrock) çıkarım altyapısını hizmet olarak sunar.

arrow_forward
compress

Knowledge Distillation (Bilgi Damıtma)

Knowledge Distillation, büyük ve güçlü bir öğretmen modelin bilgisini daha küçük ve verimli bir öğrenci modele aktarma sürecidir. Öğrenci model, doğrudan ham etiketlerden değil; öğretmenin yumuşak olasılık çıktılarından (soft labels) öğrenerek eğitim veri kümesindeki sinyallerin ötesine geçen genelleme yeteneği kazanır.

arrow_forward