Cluster Rehber

Ollama Rehberi: Yerel AI Kurulumu ve En İyi Modeller 2026

Ollama ile bilgisayarınızda ücretsiz ve gizli AI çalıştırın. Llama 3, Mistral, Qwen kurulum adımları, donanım gereksinimleri ve Open WebUI ile arayüz rehberi.

Hassas bir müşteri sözleşmesini özetletmek istiyorsunuz ama ChatGPT’ye yapıştıramıyorsunuz. Aylık 20 dolar abonelik bütçenize girmiyor. Ya da uçaktasınız, internet yok ama bir kod parçasını açıklamasını istiyorsunuz. Bu üç senaryonun ortak çözümü tek isimle özetlenebiliyor: Ollama.

Ollama bir yapay zeka modeli değil — bir platform. Asıl soru şu: hangi modeli, hangi donanımla, hangi amaçla çalıştırıyorsunuz? Bu rehber Ollama’nın model kütüphanesini ticari rakipleri olan Claude ve GPT ile değil, kendi içinde — Llama, Mistral, Qwen, Phi arasında — karşılaştırıyor. Adım adım kurulum için kapsamlı blog yazımız zaten yayında; burada cevaplanan soru “hangi modeli seçeyim, donanımım yeterli mi, üzerine ChatGPT gibi bir arayüz nasıl kurarım”.


Ollama Nedir ve Neden Önemli?

Ollama, açık kaynak büyük dil modellerini tek komutla yerel bilgisayarınızda çalıştırmanızı sağlayan bir runtime. Docker’ın container’lar için yaptığını, Ollama LLM’ler için yapıyor: ollama run llama3.3 yazıyorsunuz, model otomatik iniyor, başlıyor ve terminalde sohbete hazır oluyor.

Bulut tabanlı AI servislerine göre üç temel farkı var:

  • Gizlilik: Tüm girdi ve çıktılar loopback (127.0.0.1) üzerinden, kendi makinenizin RAM’inde işleniyor. Hiçbir veri OpenAI, Anthropic veya Google sunucularına gitmiyor. KVKK kapsamında kişisel veri içeren işler için bu, üzerine konuşulması gerekmeyen bir çözüm.
  • Maliyet: Aylık abonelik yok, token başına ücret yok. İlk model indirildikten sonra her şey sadece elektriğinize mal oluyor. 1500 token’lık bir cevap için Apple Silicon Mac’in tükettiği enerji yaklaşık 0.001 TL civarında.
  • Çevrimdışı erişim: Uçakta, dağda, internet kesintisinde model çalışmaya devam ediyor. Bu özellik sahada çalışan ekipler ve hassas ortamlarda kritik.

Kurulum tek komutluk bir iş ve işletim sistemine göre farklılaşıyor — adım adım anlatımı için Ollama Kurulum Rehberi blog yazımıza bakabilirsiniz. Bu cluster’da ondan sonra gelen kısma odaklanıyoruz: model seçimi.

Ollama’nın resmi model kütüphanesi ollama.com/library adresinde. Kütüphane şu komutla terminalden de listelenebiliyor:

ollama list
ollama pull llama3.3
ollama run llama3.3

2026 itibarıyla kütüphanede 200’den fazla model var; gerçek seçim 8-10 tanesinin arasında.


2026’da Ollama’nın En İyi Modelleri

Hangi modeli seçeceğiniz tek bir soruya bağlı: ne yapacaksınız? Genel sohbet, kod yazma, Türkçe içerik üretimi ve düşük donanımda çalıştırma — dördü için cevaplar farklı.

Genel Amaç İçin En İyi İki Model

Llama 3.3 70B (Meta). Açık kaynak dünyasında “altın standart” diye anılıyor. Llama 3.1 405B’nin yeteneklerini 70B parametreyle veriyor, yani 24GB VRAM’li bir tüketici GPU’sunda kuantize edilmiş halde rahat çalışıyor. Mantık yürütme, uzun bağlam ve çoklu dil performansı kapalı kaynak rakiplerini sınırlı senaryolarda yakalıyor.

Mistral Small 3.1 (24B). Llama 3.3’ün tam zıttı: çok daha küçük, çok daha hızlı. Apache 2.0 lisansıyla ticari kullanım için tamamen serbest. RAG (retrieval-augmented generation) senaryolarında, kısa cevap üreten chatbot’larda Llama 3.3’e kıyasla 4-5 kat daha fazla token/saniye üretiyor. Anadili Avrupa dilleri olduğundan İngilizce dışı performansı dikkat çekici.

Kod Yazma İçin

DeepSeek Coder V2 (16B / 236B). HumanEval ve MBPP gibi kod benchmarklarında 2026 başı itibarıyla GPT-4o’nun altında ama Claude 3.5 Sonnet’in oldukça yakınında. 16B versiyonu 12GB VRAM’de çalışıyor, 236B mixture-of-experts versiyonu sadece sunucu sınıfı donanım istiyor.

Qwen2.5-Coder (7B / 32B). Çin merkezli Alibaba’nın açık ağırlıklı modeli; aynı boyuttaki DeepSeek’i bazı dillerde geçiyor, Python ve JavaScript için bilhassa güçlü. 7B versiyonu 8GB VRAM’li sıradan oyun bilgisayarlarında çalışıyor.

Türkçe İçerik İçin

Türkçe konusu açık kaynak modellerin en zayıf yönü; ticari modellerin (Claude, GPT-4o) buradaki üstünlüğü hâlâ belirgin. Ama yerel alternatifler de fena değil:

  • Llama 3.3 70B: Tutarlılık iyi, gramer doğru, ama bazen aşırı resmi ya da çeviri-kokulu cümle kuruyor.
  • Qwen2.5 32B: Çoklu dil eğitimi sayesinde Türkçe’de en akıcı sonuçları veren açık kaynak model. Atasözü ve deyim kullanımı hâlâ kapalı kaynaktan geride ama açık ara önde.
  • Gemma 3 27B (Google): Türkçe sözcük seçimi temiz ancak uzun metinlerde Llama’ya göre tekrar oranı yüksek.

Düşük VRAM İçin Hafif Modeller

8GB altı VRAM’li makineler veya CPU-only sistemler için 4B parametre altı modeller yeterli:

  • Phi-4 Mini (Microsoft, 3.8B): Boyutuna kıyasla şaşırtıcı mantık yürütme performansı. Birkaç cümlelik özet ve sınıflandırma için ideal.
  • Gemma 3 4B (Google): Hızlı, hafif, çoklu dil destekli. Eğitim verisi yeni (2025 Q3) olduğundan güncel olayları nispeten iyi biliyor.
  • Llama 3.2 3B: Sıradan iş için yeterli; chatbot UI’da gecikme hissi neredeyse sıfır.
ModelBoyutVRAM (Q4)Güçlü Olduğu AlanTürkçe Skoru
Llama 3.3 70B70B24 GBGenel, mantık yürütme7/10
Mistral Small 3.124B14 GBHız, RAG, ticari kullanım6/10
Qwen2.5 32B32B18 GBTürkçe, çoklu dil8/10
DeepSeek Coder V2 16B16B12 GBKod yazımı5/10
Qwen2.5-Coder 7B7B6 GBKod, düşük donanım6/10
Gemma 3 27B27B16 GBGenel, hızlı7/10
Phi-4 Mini3.8B4 GBÖzet, sınıflandırma5/10
Gemma 3 4B4B4 GBHafif sohbet6/10

VRAM rakamları 4-bit kuantize edilmiş (Q4) sürümler için; Q8 ya da FP16 isterseniz iki ila dört katı bellek ayırın. Kuantizasyon konusunda ayrıntı için terim sayfamıza bakabilirsiniz.


Donanım Gereksinimleri: GPU’nuz Yeterli mi?

En sık karşılaştığımız soru bu. Cevap büyük ölçüde “muhtemelen evet” — ama hangi modelin altında durduğu konusunda gerçekçi olmak gerekiyor.

8 GB VRAM Sınıfı

GTX 1070, RTX 3060 8GB, Apple M1/M2 (16 GB unified memory) bu sınıfa giriyor. Rahat çalıştırabileceğiniz modeller:

  • Llama 3.1 8B veya Llama 3.2 8B
  • Mistral 7B
  • Qwen2.5 7B veya 14B (Q4)
  • DeepSeek Coder V2 Lite 16B (Q4)

Tipik token üretim hızı: 25 ila 60 token/saniye. Sohbet için fazlasıyla yeterli; uzun rapor üretirken sabırlı olmanız gerekiyor.

16-24 GB VRAM Sınıfı

RTX 4080 / 4090, RTX 3090, Apple M2 Max / M3 Max (36-64 GB unified). Bu sınıfta 32B modeller rahat, 70B modeller kuantize halde çalışıyor:

  • Llama 3.3 70B Q4 (24 GB VRAM tam dolu)
  • Qwen2.5 32B Q5
  • Mistral Small 3.1 24B FP16

Hız: Llama 3.3 70B için 18-25 token/saniye. ChatGPT Plus’ın algılanan hızıyla aynı bant.

CPU-Only Senaryosu

GPU’nuz yok ya da entegre Intel/AMD grafiklerle çalışıyorsunuz — Ollama yine çalışır, sadece yavaş. 3B-7B Q4 modeller kullanılabilir hızlarda (5 ila 12 token/saniye) sonuç veriyor. Llama 3.2 3B, Phi-4 Mini ve Gemma 3 4B bu senaryoda en iyi tercihler.

Önemli not: Bilgisayarınız 32 GB sistem RAM’ine sahipse, kuantize 13B modeller bile CPU üzerinde tahammül edilebilir hızda çalışıyor. RAM kapasitesi, GPU yoksa VRAM’in yerini alıyor.

Apple Silicon Avantajı

M1, M2, M3 ve M4 çipli Mac’lerde “unified memory” mimarisi nedeniyle sistem RAM’i doğrudan GPU belleği olarak kullanılıyor. 16 GB belleğe sahip bir MacBook Air, 13B modelleri 25-35 token/saniye hızında çalıştırıyor. Bu, aynı bütçedeki bir Windows laptop’a göre 3-4 kat hız anlamına geliyor. Yerel AI ile uğraşan bir geliştiriciyseniz Apple Silicon ciddi bir argüman.

Daha derinlemesine donanım kılavuzu için Yapay Zeka için Donanım Rehberi blog yazımıza bakabilirsiniz.


Open WebUI ile ChatGPT Benzeri Arayüz

Ollama terminal odaklı bir araç. Ne var ki çoğu kullanıcı için >>> prompt’unun çekiciliği sınırlı. Open WebUI tam buradan başlıyor: Docker üzerinde tek komutla başlatılan, ChatGPT’yi anımsatan tarayıcı arayüzü.

Tek komutluk kurulum:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Sonra tarayıcınızda http://localhost:3000 açıyorsunuz. İlk girişte hesap oluşturuyorsunuz (yerel veritabanına yazılıyor, yine internete gitmiyor), ve karşınızda model seçici, sohbet geçmişi, prompt şablonları, dosya yükleme — tanıdık her şey.

Open WebUI’nin Ollama üzerine kattığı kullanışlı özellikler:

  • Çoklu model switching: Aynı sohbette llama3.3 ile başlayıp qwen2.5 ile devam edebilirsiniz; her model aynı bağlamı görüyor.
  • Belge yükleme + RAG: PDF, Word, markdown dosyalarını sürükleyip bırakıyorsunuz; arka planda otomatik chunking, embedding ve vector store oluşuyor. “Bu sözleşmede sorumluluk maddesi var mı” diyebilirsiniz. RAG’in yerel kurulum detayı için RAG Nedir blog yazımız konuyu derinlemesine ele alıyor.
  • Prompt şablonları: Sık kullandığınız sistem prompt’larını kütüphaneye kaydedip tek tıkla yeni bir sohbet başlatıyorsunuz.
  • Kullanıcı yönetimi: Birden fazla kişiye erişim verebilirsiniz. Küçük bir ofiste 4-5 kişi aynı yerel Ollama sunucusunu paylaşabiliyor.
  • API uyumluluğu: OpenAI API formatıyla uyumlu bir endpoint sağlıyor. Mevcut OpenAI istemcilerinizi base URL’i değiştirerek Ollama’ya yönlendirebilirsiniz.

Açık Kaynak ve Yerel Cluster’larıyla İlişki

Ollama, bu hub’da iki başka cluster ile yakın akraba:

  • Açık Kaynak AI Modelleri: Llama, Mistral, Qwen, Phi modellerinin lisansları, eğitim verisi politikaları ve HuggingFace ile ilişkisi. Ollama bunları çalıştıran araç; açık kaynak cluster modellerin kendisini inceliyor.
  • Gizlilik İçin Yerel AI: KVKK uyumu, kurumsal kullanım senaryoları (hukuk, sağlık, finans) ve LM Studio gibi alternatifler. Ollama bu hedefe ulaştıran araçlardan biri; yerel cluster sektör senaryolarına odaklanıyor.

Hangi modeli neden seçmeniz gerektiği konusunda kapsamlı karar matrisi için pillar sayfasındaki “Karar Matrisi” bölümüne göz atabilirsiniz.


Sık Sorulan Sorular

Ollama gerçekten ücretsiz mi?

Evet. Hem Ollama yazılımı (MIT lisanslı) hem de kütüphanesindeki çoğu model ücretsiz. Bazı modellerin lisansları ticari kullanım için kısıtlamalar getirebiliyor (örneğin Llama community license), bu durumda lisans şartlarını HuggingFace ya da model kartından kontrol etmeniz gerekiyor.

Hangi model Türkçe’de en iyi?

Açık kaynak alternatifler arasında Qwen2.5 32B Türkçe akıcılık açısından önde. Llama 3.3 70B gramer ve mantık açısından doğru ama bazen aşırı resmi. Hızlı bir test komutu:

ollama run qwen2.5:32b "Türkiye'de bir teknoloji startup'ı için 3 cümlelik yatırımcı pitch'i yaz."

İnternet olmadan çalışıyor mu?

Tamamen. Modeli bir kez indirdikten sonra ne Ollama servisi ne de modelin kendisi internet bağlantısı kullanıyor. Yeni model indirmek ya da Ollama’yı güncellemek için elbette internet lazım, ama günlük kullanımda hiçbir trafik dış dünyaya çıkmıyor. Wireshark ile doğrulamak isterseniz buyurun — sadece localhost.

Hangi donanımla başlamalıyım?

Sıfırdan donanım alacaksanız iki yön var. Bütçeniz uygunsa Apple Silicon Mac (M3 Pro veya üzeri, 32 GB unified memory) — hem dizüstü olduğu için taşınabilir hem yerel AI için son derece optimize. Windows tarafında RTX 4070 Ti 16 GB ya da RTX 4080 16 GB iyi başlangıç. Sadece deneme amaçlıysa, mevcut bilgisayarınızda 7B modellerle başlamak — donanım yatırımına gerek olmadığı için en akıllı yol.

Ollama servisi sürekli açık kalıyor mu, pil ömrümü tüketir mi?

Ollama arka planda küçük bir API sunucusu olarak çalışıyor (varsayılan port 11434). Aktif sohbet olmadığı sürece model RAM’den boşaltılıyor; CPU/GPU kullanımı sıfıra yakın. Pil tüketimi ihmal edilebilir seviyede. Aktif kullanım sırasında ise diğer GPU işleri gibi (oyun, video editi) ciddi tüketim olabilir.


Yerel AI artık tekno-meraklıların oyuncağı değil. 2026 itibarıyla pratik, üretken bir araç. Ollama’nın güzel yanı da bu pratikliği indirip kurmadan önce planlamanıza ihtiyaç bırakmıyor olması: bir terminal, bir komut, bir model adı. Beş dakika sonra sohbet ediyorsunuz.

Bir sonraki adım: hangi modeli indirip kuracağınıza karar verdiyseniz, adım adım kurulum rehberini takip ederek başlayın. Karar veremediyseniz, karar matrisine dönüp kullanım senaryonuza uygun modeli filtreleyin.