tag SLM
Bu sayfada SLM etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.
Gemma 3 (Gemma 3)
Gemma 3, Google DeepMind tarafından 2025 yılında piyasaya çıkarılan, açık ağırlıklı ve çok modlu (multimodal) küçük-orta ölçek dil modeli ailesidir. 1B, 4B, 12B ve 27B parametre boyutlarında sunulan Gemma 3; metin ve görüntü anlama yeteneklerini birleştiren unified mimarisiyle öne çıkar. Önceki Gemma 2'ye kıyasla uzun bağlam desteği (128K token), işlev çağırma (function calling) ve çok dilli performans iyileştirilmiştir. Gemma 3, Google'ın Gemini modellerinin eğitim altyapısından ilham alan ama bağımsız bir ağırlık setine sahip model ailesidir. Ticari kullanıma açık Gemma lisansı altında yayımlanan bu modeller; HuggingFace Transformers, Ollama ve LM Studio gibi platformlarda kolayca çalıştırılabilir. 27B parametreli versiyonu, tek tüketici GPU'suna sığabilen en güçlü açık modellerden biri konumundadır; instruction-tuned (IT) varyantları sohbet ve görev yönlendirme için optimize edilmiştir. Performans açısından Gemma 3 27B, birçok kıyaslamada 70B ölçekli modellere yakın sonuçlar üretmektedir. Özellikle çok dilli anlama, kod üretimi ve görüntü açıklama görevlerinde güçlüdür. Google'ın Vertex AI üzerinden erişilebilen Gemma 3, kurumsal güvenlik ve uyumluluk gereksinimleri olan şirketlerin kendi altyapısında çalıştırabileceği güçlü bir yerel model seçeneği sunar.
Phi-4 (Phi-4)
Phi-4, Microsoft Research tarafından Aralık 2024'te yayımlanan ve küçük model mimarisindeki verimliliği zirveye taşıyan 14 milyar parametreli bir dil modelidir. Phi serisinin önceki üyelerine (Phi-1, Phi-2, Phi-3) kıyasla daha geniş ve daha kaliteli eğitim verisi kullanan Phi-4; matematik, mantık ve bilim kıyaslamalarında çok daha büyük modellere üstün performans sergilemiştir. Phi-4'ün en önemli özelliği 'veri kalitesi > veri miktarı' felsefesini somutlaştırmasıdır: model ham internet verisinin yanı sıra sentetik olarak üretilmiş yüksek kaliteli matematik ve akıl yürütme örnekleriyle eğitilmiştir. Bu yaklaşım, 14B parametrenin çok üzerindeki yeteneklere ulaşmayı mümkün kılmıştır. GPQA Diamond (doktora düzeyinde bilim), AMC ve MATH kıyaslamalarında Phi-4, 70B ölçekli birçok modeli geride bırakmıştır. Phi-4, Apache 2.0 lisansıyla HuggingFace'de yayımlanmıştır; tüketici GPU'larında kolayca çalışır ve ince ayar yapılabilir. Özellikle eğitim, kodlama yardımcısı ve araştırma uygulamaları için maliyet-performans dengesi açısından dikkat çekicidir. Microsoft'un Phi serisi, 'small but mighty' (küçük ama güçlü) SLM (Small Language Model) kategorisinin en güçlü temsilcilerinden biri hâline gelmiştir.
Small Language Model (Küçük Dil Modeli)
Small Language Model (SLM — Küçük Dil Modeli), genellikle 1B ila 14B parametre aralığında, edge cihazlarda veya sınırlı hesaplama kaynaklarında çalışabilmek üzere tasarlanmış ve optimize edilmiş dil modeli sınıfıdır. GPT-4 veya Claude gibi dev modellerin aksine SLM'ler; yerel cihazda çalışabilme, düşük gecikme, veri gizliliği ve maliyet etkinliği gibi pratik avantajlar sunar. SLM'lerin yükselişini mümkün kılan iki temel yaklaşım bulunmaktadır: Veri kalitesi odaklı eğitim (Phi-4 gibi yüksek kaliteli sentetik veri ile parametre sınırını zorlama) ve model damıtma (distillation — büyük bir öğretmen modelden küçük öğrenci modele bilgi aktarımı). Bu sayede küçük modeller parametre sayısıyla orantısız biçimde yüksek performans sergileyebilmektedir. Popüler SLM örnekleri arasında Microsoft Phi-4 (14B), Google Gemma 3 (1B-27B), Meta Llama 3.2 (1B, 3B), Mistral 7B ve Apple'ın cihaz üstü modelleri sayılabilir. Uygulama alanları: akıllı telefon asistanları, IoT cihazları, gizlilik öncelikli kurumsal uygulamalar, düşük bant genişliği ortamları ve gerçek zamanlı yanıt gerektiren sistemler. Apple Silicon, Qualcomm Hexagon NPU ve NVIDIA Jetson gibi özel hızlandırıcılar SLM çıkarımını daha da verimli hâle getirmektedir.