tag ProductionML

Bu sayfada ProductionML etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Model Serving (Model Servis (Çıkarım Sunumu))

Model Serving, eğitilmiş bir makine öğrenimi modelini üretim ortamında gerçek kullanıcılara veya sistemlere sunmak için kullanılan altyapı, araçlar ve süreçlerin bütününü ifade eder. Bir model ne kadar iyi eğitilmiş olursa olsun, bir servis arayüzü olmadan son kullanıcılara değer üretemez; model serving bu kritik boşluğu kapatır. Model serving süreci birkaç temel bileşenden oluşur: çıkarım sunucusu (inference server), model deposu (model registry), yük dengeleyici (load balancer) ve izleme sistemi (monitoring). Bunların bir araya gelmesiyle oluşan sistem, gelen tahmin isteklerini milisaniyeler içinde yanıtlayabilir. Sektörde yaygın olarak kullanılan servis çerçeveleri arasında TorchServe (PyTorch ekosistemi), NVIDIA Triton Inference Server (çok modelli, GPU-optimize), TensorFlow Serving, FastAPI ve BentoML yer alır. Her biri farklı performans, ölçeklenebilirlik ve model formatı gereksinimlerine göre seçilir. Servis modelleri açısından üç ana yaklaşım bulunur: çevrimiçi servis (online serving), gerçek zamanlı ve düşük gecikme süresi gerektiren tahmin isteklerinde kullanılır; toplu iş servisi (batch serving), büyük veri setleri üzerinde toplu tahmin çalıştırılmasına olanak tanır ve gerçek zamanlılık gerekmez; akış servisi (stream serving) ise Kafka veya Pub/Sub gibi mesaj kuyrukları üzerinden sürekli veri akışını işler. Çıkarım hızını artırmak için quantization (kuantizasyon), pruning (budama), ONNX formatına dönüştürme ve TensorRT optimizasyonu gibi teknikler yaygın olarak uygulanır. Kubernetes üzerinde çalışan model serving sistemi, gelen istek yüküne göre yatay olarak ölçeklendirilebilir. Otoscaling, maliyet optimizasyonu açısından kritik öneme sahiptir ve kullanım artışlarında otomatik olarak yeni sunucu instance'ları devreye girer.

arrow_forward