Llama 4 Nedir? Meta'nın Açık Kaynak Yapay Zeka Modelleri

list_altİçindekilerexpand_more

01Llama 4 Ailesi: Üç Model, Üç Segment
02Scout: Hafif ve Uzun Bağlamlı
03Maverick: Orta Segmentin Güçlü Rakibi
04Behemoth: Kamuya Açık Olmayan Öğretmen Model
05Mimari: MoE + Çok Modlu Füzyon
06Mixture-of-Experts
07Doğal Çok Modalite ve iRoPE
08Benchmark Sonuçları: Gerçek mi, Pazarlama mı?
09Erişim ve Yerel Kurulum
10Meta AI Web Arayüzü
11Hugging Face
12Ollama ile Yerel Kurulum
13API Sağlayıcılar
14Llama 4’ün Güçlü Olduğu Alanlar
15Sınırlılıklar
16Açık Kaynak Ekosistemindeki Yeri
17Scout, Maverick, Behemoth: Hangisini Seçmeli?

Nisan 2025’te Meta, açık ağırlıklı modellerinin yeni neslini tanıttı: Llama 4. Önceki Llama 3’ten yalnızca parametre sayısı bakımından değil, mimari tercihler ve çoklu-modalite desteği açısından da belirgin biçimde ayrılıyor. Scout, Maverick ve Behemoth adlarını taşıyan üç boyut var; her biri farklı bir hesaplama bütçesi için tasarlanmış.

Llama 4’ü pratik anlamda ilgi çekici yapan şey ağırlıkların halka açık olması. Geliştiriciler modeli kendi altyapılarına kurabiliyor, üzerine ince ayar yapabiliyor ve API maliyeti ödemeden çalıştırabiliyor. Aynı performans aralığındaki kapalı modeller için aylık fatura kesmek zorunda değilsiniz. Bireysel araştırmacılar için de kurumsal ekipler için de bu fark elle tutulur.

Bir de şunu söyleyelim: Llama 3 döneminde açık ağırlıklı modeller GPT-4 sınıfı performansa yaklaşmak için uğraşıyordu. Llama 4 ile aradaki mesafe belirgin biçimde kapandı; en azından belirli görev kategorilerinde. Bu bir iddia değil, bağımsız benchmark platformlarının ortaya koyduğu bir gözlem. Ama “kapanma” kelimesine de ihtiyatla yaklaşmak gerekiyor; aşağıda bunu açacağız.

Llama 4 Ailesi: Üç Model, Üç Segment

Meta bu sürümde tek bir ağırlık dosyası yerine üç ayrı model boyutu yayınladı. Her biri farklı bir kullanım senaryosuna yönelik.

Scout: Hafif ve Uzun Bağlamlı

Scout, 17 milyar aktif parametre ve 16 uzman bloğu barındırıyor. MoE yapısı, çıkarım sırasında aktifleştirilen parametre sayısını toplam boyutun çok altında tutuyor; bu da bellek gereksinimini düşürüyor. En dikkat çekici özelliği bağlam uzunluğu: 10 milyon token. Büyük kod tabanlarını, uzun hukuk belgelerini ya da saat başına değişen log çıktılarını tek seferde işlemek isteyenler için bu değer pratik bir üstünlük. Edge ortamları ve kısıtlı donanımlarda çalışacak olanlar Scout’tan başlamalı.

Maverick: Orta Segmentin Güçlü Rakibi

Maverick, 17 milyar aktif parametre ile aynı temel yapıyı paylaşıyor; ancak uzman sayısı 128’e çıkıyor. Bu, modelin belirli token türleri için çok daha uzmanlaşmış alt ağları devreye alabildiği anlamına geliyor. Kod anlama, görsel sorgulama ve çok dilli metin görevlerinde Llama 3.1 405B ile rekabetçi sonuçlar üretiyor.

Meta’nın açıkladığı benchmark verilerine göre Maverick, birkaç görevde GPT-4o ve Gemini 2.0 Flash ile yakın bir performans aralığında konumlanıyor. Bu rakamların bağımsız testlerde nasıl karşılık bulduğuna aşağıda değineceğiz.

Behemoth: Kamuya Açık Olmayan Öğretmen Model

Behemoth, 288 milyar aktif parametre ve 16 uzman bloğuyla Llama 4 ailesinin tepe noktası. Ama bu model şu an doğrudan indirilebilir değil. Eğitim sürecinde Scout ve Maverick’e bilgi aktaran bir “öğretmen model” olarak kullanıldı. Zaman içinde sınırlı erişimle araştırmacılara açılması bekleniyor; net bir takvim henüz yok.

Mimari: MoE + Çok Modlu Füzyon

Llama 4’ün önceki nesle kıyasla en temel farkı mimari tercih.

Mixture-of-Experts

Klasik bir dense transformer her token için tüm parametre ağırlıklarını hesaplamaya sokar. MoE mimarisinde ise her token, bir “router” katmanı tarafından belirli uzman bloklara yönlendiriliyor. Maverick örneğinde 128 uzman bloğundan token başına yalnızca birkaçı etkinleşiyor. Bu, toplam parametre sayısı yüksek olsa da fiili hesaplama maliyetini düşürüyor.

Sonuç: aynı çıkarım bütçesiyle daha büyük bir model kapasitesine erişmek. Ama temel trade-off bellek bant genişliğinde ortaya çıkıyor. MoE modelleri yükleme aşamasında tüm ağırlıkları RAM’e almak zorunda; dense modellere kıyasla bellek tüketimi bu noktada yüksek kalıyor.

Bu nedenle Scout’u 10 GB VRAM’li bir GPU’da çalıştırabilirsiniz, ancak modeli ilk kez yüklerken bekleme süresi bir dense modele kıyasla daha uzun. Çıkarım hızına geldikten sonra fark kapanıyor ve MoE’nin verimlilik avantajı devreye giriyor.

Llama 4 MoE mimarisi: uzman yönlendirme, çok modlu füzyon ve iRoPE dikkat mekanizması

Doğal Çok Modalite ve iRoPE

Llama 4, görsel ve metin tokenlerini ayrı encoder’lardan geçirip birleştiren “late fusion” yerine early fusion stratejisini benimsiyor. Görseller ve metin başından itibaren aynı transformer bloğuna giriyor. Bu, metin-görsel etkileşiminin daha erken katmanlarda kurulmasını sağlıyor.

Bağlam uzunluğu konusunda ise iRoPE (infinite RoPE) dikkat mekanizması devreye giriyor. Geleneksel RoPE pozisyon kodlaması belirli bir uzunlukta takılıp kalıyor; iRoPE bu sınırı esnetecek biçimde tasarlanmış. Scout’un 10M token bağlamı bu mekanizmanın doğrudan ürünü.

Benchmark Sonuçları: Gerçek mi, Pazarlama mı?

Llama 4 duyurusunda Meta birkaç dikkat çekici skor paylaştı: MMLU Pro, MATH-500, HumanEval ve LiveBench üzerinde Maverick’in GPT-4o ve Gemini 2.0 Flash’ı geride bıraktığını öne sürdü.

Ama bu tablo bazı sorular doğurdu. Bağımsız araştırmacılar ve model değerlendirme platformları, Meta’nın kullandığı test konfigürasyonunun standart LiveBench kurulumundan farklılaştığını fark etti. “Benchmark cherry-picking” tartışması bu bağlamda yürüdü: test soruları doğrudan eğitim setine karışmış olabilir ya da test koşulları özenle seçilmiş olabilir. Bu, açık model ekosisteminin sıkça karşılaştığı bir sorun; doğrulama yükü büyük ölçüde topluluk üzerinde kalıyor.

Daha sağlıklı bir değerlendirme için akıl yürüten AI modellerini karşılaştırdığımız yazıya bakabilirsiniz; orada benchmark metodolojisini ayrıntılı ele alıyoruz.

Genel tablo şöyle: Maverick, çok dilli metin ve görsel görevlerde güçlü; ancak karmaşık akıl yürütme gerektiren problemlerde o3 veya DeepSeek R1 gibi reasoning modellerinin gerisinde kalıyor. Scout ise uzun bağlam işleme için spesifik bir niş dolduruyor.

Pratikte bu ne anlama geliyor? Çeviri, özetleme, görsel analiz veya çok dilli içerik üretimi için Llama 4 Maverick gerçek anlamda yeterli bir model. Karmaşık matematik ispatlama, çok adımlı kod hata ayıklama ya da bilimsel akıl yürütme gibi görevler için reasoning modellere yönelmek daha sağlıklı. İki kategori arasındaki sınır, kullanım senaryonuzu tanımlamak açısından belirleyici.

Erişim ve Yerel Kurulum

Meta AI Web Arayüzü

En hızlı yol: Meta AI sitesinden hesap oluşturarak Maverick ile doğrudan sohbet edebilirsiniz. API erişimi sunmuyor ama modeli denemek için yeterli.

Hugging Face

Meta ağırlıkları Hugging Face üzerinden yayınlıyor. Instruct (talimat uyumlu) ve Base (ham pre-trained) sürümleri mevcut:

# Scout — instruct sürümü
meta-llama/Llama-4-Scout-17B-16E-Instruct

# Maverick — instruct sürümü
meta-llama/Llama-4-Maverick-17B-128E-Instruct

İndirmek için bir Hugging Face hesabı ve Meta’nın lisans anlaşmasını onaylamanız gerekiyor.

Ollama ile Yerel Kurulum

Ollama, Llama 4’ü kuantize edilmiş formatlarla destekliyor:

# Scout — Q4_K_M, yaklaşık 10 GB VRAM
ollama run llama4:scout

# Maverick — daha yüksek bellek gereksinimi
ollama run llama4:maverick

Scout için Q4_K_M kuantizasyonu yaklaşık 10 GB VRAM gerektiriyor. 16 GB VRAM’li bir tüketici GPU’su (RTX 4080 gibi) bu modeli rahat çalıştırıyor. Maverick içinse gereksinim belirgin biçimde artıyor.

Kuantizasyon formatları hakkında daha fazla bilgi için GGUF, AWQ ve GPTQ karşılaştırmamıza bakabilirsiniz.

Llama 4'ü Ollama ile yerel çalıştıran geliştirici terminali, navy-cyan-magenta aydınlatma ile sinematik derinlik

API Sağlayıcılar

Yerel kurulum istemeyenler için Groq, Fireworks AI ve Together AI Llama 4 erişimi sunuyor. Groq, LPU mimarisi ile düşük gecikme isteyen projeler için öne çıkıyor. Maliyet karşılaştırması yapacak olursanız: OpenAI GPT-4o’nun token başına fiyatı Groq üzerinden çalışan Llama 4 Maverick’e kıyasla birkaç kat daha yüksek; bu fark, yüksek hacimli uygulamalarda belirleyici olabiliyor.

Llama 4’ün Güçlü Olduğu Alanlar

Uzun belge işleme: Scout’un 10M token bağlamı, binlerce sayfalık PDF ya da büyük kod tabanlarını tek sorguda analiz etmek için somut bir kullanım senaryosu açıyor. GPT-4o’nun 128K token sınırıyla kıyaslandığında bu fark, pratik görevlerde belirleyici olabiliyor.

Çok dilli metin: Meta, Türkçe dahil 12’den fazla dili eğitim setine dahil ettiğini belirtiyor. Llama 3’e kıyasla Türkçe yanıt kalitesinde ölçülebilir bir iyileşme var.

Görsel anlama: Maverick, grafik, tablo ve görsel içerikli sorguları yönetebiliyor. Bu alanda GPT-4o Vision ve Gemini 1.5 Pro ile rekabet aralığı daha dar, ama açık ağırlıklı alternatiflerin içinde rekabetçi bir pozisyon.

RAG pipeline’ları: Scout’un uzun bağlam kapasitesi, büyük belge setlerini chunk’lamak zorunda kalmadan doğrudan bağlama koymaya olanak tanıyor. Bu, retrieval pipeline’larını ciddi ölçüde basitleştirebiliyor.

Kod üretimi: Maverick, HumanEval ve SWE-bench testlerinde rekabetçi; standart programlama görevlerinde tutarlı sonuçlar veriyor.

Sınırlılıklar

Lisans kısıtlamaları: Llama 4, “Llama 4 Community License” altında dağıtılıyor. Bu lisans ticari kullanıma izin veriyor; ancak aylık 700 milyonun üzerinde aktif kullanıcıya ulaşan ürünler için Meta’dan ayrı bir izin alınması gerekiyor. Apache 2.0 kadar özgür bir lisans değil.

Behemoth erişimi: Ailenin en güçlü modeli hâlâ kamuya açık değil. Yayınlanma takvimi belirsiz.

Güvenlik testleri: Meta’nın red-team açıklamaları, modelin belirli jailbreak kategorilerine karşı hâlâ kırılganlıklar taşıdığını ortaya koyuyor. LLM güvenliği ve çıktı filtreleme konusunda daha fazla bilgi için LLM guardrails yazımıza bakabilirsiniz.

Benchmark güvenilirliği: Yukarıda değinildiği gibi, Meta’nın paylaştığı performans rakamlarının bir kısmı bağımsız testlerde doğrulanamadı. Kendi kullanım senaryonuzda test etmeden üretim kararı vermemek iyi bir pratik.

Açık Kaynak Ekosistemindeki Yeri

Llama 4, açık ağırlıklı LLM ekosisteminde yalnız değil. Mistral Large 2, Qwen3, Gemma 3 ve DeepSeek V3 benzer parametre aralığında rekabet eden modellerden bazıları.

Llama 4’ün asıl avantajı Meta’nın kurum büyüklüğü ve tutarlı model ailesi geçmişi. Llama 1’den bu yana gelen düzenli sürümler, topluluk araçlarının (fine-tuning reçeteleri, kuantizasyon desteği, inference motorları) hızla olgunlaşmasına zemin hazırlıyor. Bu ekosistem birikimi, rakip açık kaynak modellerin çoğunun henüz üretemediği bir avantaj.

Fine-tuning konusunda açık ağırlıklar açık ara önde. Kapalı bir model API’sini kendi verilerinizle uyarlayamazsınız; Llama 4’te bu knowledge distillation ve standart supervised fine-tuning yöntemleriyle erişilebilir bir süreç. Konuyu küçük dil modellerini ele aldığımız yazımızda da işledik; Llama 4 Scout özellikle ince ayar maliyetini düşük tutmak isteyen projeler için iyi bir başlangıç noktası.

Bir de şunu not etmek gerekiyor: Llama 4 çıktığında Qwen3 ve Gemma 3 zaten piyasadaydı. Açık ağırlıklı model rekabeti 2024-2025 döneminde olağandışı bir hız kazandı; Meta’nın bu rekabette kalabilmek için hem teknik hem de topluluk katmanında yatırım yapmak zorunda kaldığı görülüyor. Bu baskı, sonuç itibarıyla son kullanıcı açısından olumlu: daha iyi modeller, daha sık yayınlanıyor.

Scout, Maverick, Behemoth: Hangisini Seçmeli?

Senaryo	Önerilen Model
Yerel çalıştırma, kısıtlı VRAM (10–16 GB)	Scout (Q4_K_M)
Uzun belge analizi ve RAG	Scout (10M token bağlam)
Kod ve görsel görevler, orta donanım	Maverick
Araştırma, öğretmen model erişimi	Behemoth (bekleniyor)

Scout çoğu geliştirici için doğru başlangıç noktası. Ollama kurulumu 15 dakikadan kısa sürüyor ve standart bir oyun bilgisayarında çalışıyor. RAG pipeline’larında uzun bağlam avantajından yararlanmak isteyenler için zaten başka bir alternatif yok. İlk testlerinizi Scout ile yapın; ardından gerçek görev performansını ölçtükten sonra Maverick’e geçip geçmeyeceğinize karar verebilirsiniz.

Maverick ise görsel ve kod görevlerini birleştiren uygulamalar için anlamlı. API maliyetini düşürmek isteyen ekipler ve fine-tuning yapmayı planlayan araştırmacılar için bu sürüm daha geniş bir kullanım çerçevesi çiziyor. Kendi altyapınızda çalıştırmak istiyorsanız VRAM gereksinimini önceden hesaplamanızı tavsiye ederim; Maverick’i kuantize edilmiş haliyle bile çalıştırmak Scout’a kıyasla iki katı donanım bütçesi anlamına gelebiliyor.

Vektör veritabanı destekli bir RAG kurulumu planlıyorsanız, Pinecone, Chroma ve Weaviate rehberimize bakabilirsiniz; Llama 4 Scout bu tür pipeline’larda doğrudan kullanılabiliyor.