tag KüçükDilModeli

Bu sayfada KüçükDilModeli etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Phi-4 (Phi-4)

Phi-4, Microsoft Research tarafından Aralık 2024'te yayımlanan ve küçük model mimarisindeki verimliliği zirveye taşıyan 14 milyar parametreli bir dil modelidir. Phi serisinin önceki üyelerine (Phi-1, Phi-2, Phi-3) kıyasla daha geniş ve daha kaliteli eğitim verisi kullanan Phi-4; matematik, mantık ve bilim kıyaslamalarında çok daha büyük modellere üstün performans sergilemiştir. Phi-4'ün en önemli özelliği 'veri kalitesi > veri miktarı' felsefesini somutlaştırmasıdır: model ham internet verisinin yanı sıra sentetik olarak üretilmiş yüksek kaliteli matematik ve akıl yürütme örnekleriyle eğitilmiştir. Bu yaklaşım, 14B parametrenin çok üzerindeki yeteneklere ulaşmayı mümkün kılmıştır. GPQA Diamond (doktora düzeyinde bilim), AMC ve MATH kıyaslamalarında Phi-4, 70B ölçekli birçok modeli geride bırakmıştır. Phi-4, Apache 2.0 lisansıyla HuggingFace'de yayımlanmıştır; tüketici GPU'larında kolayca çalışır ve ince ayar yapılabilir. Özellikle eğitim, kodlama yardımcısı ve araştırma uygulamaları için maliyet-performans dengesi açısından dikkat çekicidir. Microsoft'un Phi serisi, 'small but mighty' (küçük ama güçlü) SLM (Small Language Model) kategorisinin en güçlü temsilcilerinden biri hâline gelmiştir.

arrow_forward phonelink

Small Language Model (Küçük Dil Modeli)

Small Language Model (SLM — Küçük Dil Modeli), genellikle 1B ila 14B parametre aralığında, edge cihazlarda veya sınırlı hesaplama kaynaklarında çalışabilmek üzere tasarlanmış ve optimize edilmiş dil modeli sınıfıdır. GPT-4 veya Claude gibi dev modellerin aksine SLM'ler; yerel cihazda çalışabilme, düşük gecikme, veri gizliliği ve maliyet etkinliği gibi pratik avantajlar sunar. SLM'lerin yükselişini mümkün kılan iki temel yaklaşım bulunmaktadır: Veri kalitesi odaklı eğitim (Phi-4 gibi yüksek kaliteli sentetik veri ile parametre sınırını zorlama) ve model damıtma (distillation — büyük bir öğretmen modelden küçük öğrenci modele bilgi aktarımı). Bu sayede küçük modeller parametre sayısıyla orantısız biçimde yüksek performans sergileyebilmektedir. Popüler SLM örnekleri arasında Microsoft Phi-4 (14B), Google Gemma 3 (1B-27B), Meta Llama 3.2 (1B, 3B), Mistral 7B ve Apple'ın cihaz üstü modelleri sayılabilir. Uygulama alanları: akıllı telefon asistanları, IoT cihazları, gizlilik öncelikli kurumsal uygulamalar, düşük bant genişliği ortamları ve gerçek zamanlı yanıt gerektiren sistemler. Apple Silicon, Qualcomm Hexagon NPU ve NVIDIA Jetson gibi özel hızlandırıcılar SLM çıkarımını daha da verimli hâle getirmektedir.

arrow_forward