Avukatsanız, muhasebeciyseniz veya doktorsanız, bir müşterinin sözleşmesini, bir hastanın raporunu ya da bir bilançoyu ChatGPT’ye yapıştırmadan önce bir saniye durun. O metin servis sağlayıcının sunucularında işlenir, log’lanır ve — şartlara bağlı olarak — bir sonraki model eğitiminde kullanılabilir. Aynı işi yerel yapay zeka ile, veriniz makinenizden hiç çıkmadan da yapabilirsiniz.
Bu rehber, “yerel AI” denilen şeyin neden artık yalnızca teknik bir tercih değil, belli sektörler için zorunlu bir uyum gereksinimi olduğunu anlatıyor. Sonra hangi aracı, hangi donanımda, hangi modelle kullanacağınızı pratik bir karar tablosuna oturtuyoruz.
Yerel AI Neden Önemli? Gizlilik Senaryolarıyla Anlatım
Bulut tabanlı bir asistana ne zaman bir mesaj yazsanız, o mesaj üç yerden geçer: sizin cihazınız, sağlayıcının veri merkezi ve sağlayıcının log altyapısı. Hangi mesajların eğitim verisi olarak saklandığı, hangilerinin silindiği, ne kadar süreyle tutulduğu — bunların hepsi şartlar belgesinde tek tek yazar ve ne yazık ki çoğu zaman değişebilir.
Yerel AI’da bu zincir kopar. Edge AI mimarisinde model ağırlıkları sizin sabit diskinizde, hesaplama kendi işlemci veya ekran kartınızda gerçekleşir. Veri loopback adresinin (127.0.0.1) ötesine geçmez.
KVKK ve Yerel İşleme Mantığı
KVKK 5. madde “kişisel verilerin işlenmesi” tanımını çok geniş tutar — “tamamen veya kısmen otomatik yollarla elde edilmesi, kaydedilmesi… aktarılması” işleme sayılır. Bir avukatın müvekkil yazışmasını ChatGPT’ye yapıştırması teknik olarak veri sorumlusunun açık rızası olmadan yurt dışına aktarım sorununu gündeme getirir. Aynı yazışma yerel bir modele girdiğinde aktarım söz konusu değildir.
Bu bir tavsiye değil, sektörel bir mecburiyet:
- Hukuk büroları — Müvekkil belgeleri, dava dosyaları, sözleşmeler. Mesleki sır yükümlülüğü (Avukatlık Kanunu m. 36) sebebiyle üçüncü taraf işleme zaten sorunlu.
- Sağlık kurumları — Hasta raporları, görüntüleme açıklamaları, anamnez metinleri. KVKK m. 6 kapsamında özel nitelikli veri; yurt dışı aktarım için açık rıza gerekir.
- Finans ve muhasebe — Mali tablolar, müşteri portföyleri, denetim notları. Hem KVKK hem MASAK hem SPK yönetmelikleri devrede.
- AR-GE ve patent süreci — Henüz yayımlanmamış teknik belgeler. Üçüncü taraf işleme patent başvurusunu sakatlayabilir.
Bulut Sağlayıcıların “Eğitime Kullanmıyoruz” Sözünün Sınırı
OpenAI Enterprise, Anthropic API, Google Workspace AI — hepsi “girişlerinizi eğitime kullanmıyoruz” diye yazar. Doğrudur ama eksiktir. Çünkü:
- Log retention süresi vardır (genelde 30 gün). Bu süre içinde bir mahkeme kararı, bir güvenlik ihlali veya bir iç soruşturma metninize erişebilir.
- Aktarım anında veri sunucuya zaten gitmiş olur. “Sonra silindi” geri dönüşü olmayan bir aktarımı geri almaz.
- Servis şartları tek taraflı değiştirilebilir. Bugün eğitime kullanılmayan veri, üç ay sonra başka şekilde işlenebilir.
Yerel AI’da bu üçü de teknik olarak imkansızdır. Veri, üzerine konuştuğunuz makinenin RAM’inde yaşar ve siz uygulamayı kapattığınızda silinir.
Kurumsal Yerel AI: On-Premise Seçenekleri
“Yerel AI”yi bir kişinin laptop’ında çalıştırmak başka bir şey, 50 kişilik bir hukuk bürosunun ortak kullanımına açmak başka. Ölçeğe göre dört temel mimari öne çıkıyor.
1–10 Kişi: Ollama + Basit API
En küçük ölçek için Ollama + ortak bir iş istasyonu yeterli. Bir kişi sunucu rolü oynar, diğerleri yerel ağ üzerinden bağlanır.
- Donanım: 1× RTX 4090 (24 GB VRAM) veya M3 Max 64 GB
- Kurulum:
ollama serve+ nginx reverse proxy - Erişim: Open WebUI yerel ağda paylaşılır, kullanıcı başına hesap
- Maliyet: ~80.000–120.000 TL tek seferlik donanım
Ollama kurulum adımları için ayrıntılı rehber ayrı bir blogda işlenmiştir; bu cluster’da seçim ve karar konuları ele alınır.
10–100 Kişi: Open WebUI + LDAP/SSO
Orta ölçek için işin ciddiyeti artar: kullanıcı yönetimi, denetim logları, model bazında izinler gerekir.
- Donanım: Tek sunucu (2× RTX 6000 Ada 48 GB) veya küçük cluster
- Yazılım katmanı: Open WebUI + LDAP/Microsoft Entra ID entegrasyonu, model bazlı RBAC
- Backup ve log retention: 30 gün, denetim için ayrı bir sistemde
- IT yükü: Yarı zamanlı bir sistem yöneticisi
100+ Kişi: vLLM, LM Studio Enterprise veya Ollama Cluster
Büyük ölçek artık “yerel” değil “on-prem”e dönüşür. Tek bir GPU yetmez; eş zamanlı 30+ isteğe yanıt verecek bir inference cluster gerekir.
| Çözüm | Güçlü Yönü | Lisans Modeli |
|---|---|---|
| vLLM | En yüksek throughput, açık kaynak | Apache 2.0 |
| LM Studio Enterprise | GUI öncelikli, idari kontrol | Ticari abonelik |
| Text Generation Inference (TGI) | HuggingFace ekosistemine yakın | Apache 2.0 |
| Ollama Cluster (deneysel) | Tanıdık API, basit operasyon | MIT |
Bu ölçekte donanım yatırımı 1–3 milyon TL bandına çıkabilir; ama 50+ kullanıcılı bir kurumda OpenAI Enterprise abonelik bedeli ilk yıl içinde başa baş gelir, ikinci yıldan itibaren tasarruf eder.
Minimum Donanım Önerileri
Hangi ölçekte olursanız olun, doğru donanım seçimi modelle eşleştirilmeli:
| Ölçek | Önerilen GPU | Çalıştırabileceği Model |
|---|---|---|
| Bireysel — laptop | M3 Pro 36 GB / RTX 4070 8 GB | Phi-4 Mini, Gemma 3 4B, Qwen 7B |
| Bireysel — iş istasyonu | RTX 4090 24 GB / M3 Max 64 GB | Qwen 14B, Llama 8B, Mistral Small |
| Küçük ekip — sunucu | 1× RTX 6000 Ada 48 GB | Qwen 32B, Llama 3.3 70B (Q4) |
| Kurumsal — cluster | 4–8× H100 80 GB | Llama 3.3 70B full precision, paralel servis |
Donanım seçiminin daha derinlikli ele alındığı kaynak: Yapay zeka için donanım rehberi.
Hangi Araç Hangi Senaryo İçin?
Yerel AI ekosisteminde dört araç sürekli adı geçen, üretime hazır seçenekler. Her birinin farklı bir hedef profili var.
Ollama — Geliştirici ve Teknik Kullanıcı
- Kullanıcı profili: Komut satırına alışkın, kurulum/güncelleme/script yazmaktan rahatsız olmayan kullanıcılar
- Güçlü yönü: Tek komut model indirme, basit REST API, çok geniş model kütüphanesi
- Zayıf yönü: GUI yok; arayüz isteyen kullanıcı Open WebUI’ı ayrıca kurmalı
Detaylı incelemesi Ollama cluster sayfasında.
LM Studio — Teknik Olmayan Kullanıcı
- Kullanıcı profili: GUI’yle çalışmak isteyen, terminal komutu yazmak istemeyen profesyoneller (hukuk, sağlık, finans)
- Güçlü yönü: Drag-and-drop model yükleme, gömülü chat arayüzü, dosya analizi tek tıkla
- Zayıf yönü: Kapalı kaynak; lisans şartları büyük ölçekte sınırlayıcı
Jan — Cross-Platform Masaüstü Asistanı
- Kullanıcı profili: Birden fazla işletim sistemi kullanan, tek bir tutarlı arayüz isteyen kullanıcılar
- Güçlü yönü: Açık kaynak (AGPL), tüm OS’lerde aynı deneyim, OpenAI uyumlu yerel API
- Zayıf yönü: Topluluk LM Studio kadar büyük değil; bazı modellerle uyum sorunları çıkabilir
PrivateGPT — Kendi Belgenizle RAG
- Kullanıcı profili: Şirket içi belge tabanı üzerinde sorgu yapmak isteyen ekipler
- Güçlü yönü: Yerleşik RAG yapısı; PDF, Word, Markdown otomatik indekslenir
- Zayıf yönü: Tek başına chat arayüzü değil; ek bir UI katmanı gerekir
Hızlı Karar Tablosu
| Senaryo | Önerilen Araç |
|---|---|
| Tek kişilik kullanım, GUI istiyorum | LM Studio veya Jan |
| Geliştiriciyim, otomatize edeceğim | Ollama |
| Kurum içi belge sorgulama | PrivateGPT veya Open WebUI + Ollama + RAG |
| 5+ kullanıcılı ortak kurum kullanımı | Open WebUI + Ollama backend |
Model Seçimi: Gizlilik + Türkçe Performans Dengesi
Yerel AI’da iki kısıt birbirine ters çalışır: daha büyük model = daha iyi cevap ama daha büyük donanım. Türkçe özelinde ise bir modelin parametre sayısı ile Türkçe performansı arasında doğrusal bir ilişki yok — bazı küçük modeller (Qwen) ana dilinde İngilizce bir devden daha iyi Türkçe üretir.
Küçük + Güçlü: Hafif Donanımda Çalışan Modeller
8 GB VRAM’i olan herhangi bir bilgisayar veya M2/M3 çipli MacBook için:
- Phi-4 Mini (3.8B) — Microsoft’un Apache 2.0 lisanslı modeli. Genel kullanımda şaşırtıcı kaliteli, Türkçe orta.
- Gemma 3 4B — Google’ın açık ağırlıklı modeli. Türkçe destek son sürümle çok iyileşti.
- Qwen 2.5 7B — En iyi küçük-Türkçe kombinasyonu. Aşağıdaki orta sınıfa hemen geçmek için ideal başlangıç.
Orta Boy: 14–32B Parametreli Modeller
16–24 GB VRAM veya 32+ GB unified memory (M3 Max) için:
- Qwen 2.5 14B — Türkçe için yerel ekosistemdeki en iyi denge noktası. Alibaba’nın bu modeli özellikle çok dilli senaryolarda Llama’nın aynı boyutuna fark atar.
- Mistral Small 3.1 24B — Apache 2.0 lisanslı. Avrupa veri yönetmelikleri uyum açısından kurumlar tarafından tercih edilir.
- DeepSeek V2 16B — Akıl yürütme ve kod görevlerinde öne çıkar; Türkçe orta.
Büyük: 70B+ Modeller (Sunucu Sınıfı)
48 GB+ VRAM gerektirir. Genelde bir hukuk bürosu veya orta ölçekli şirket için aşırı; ama büyük kurumsal kullanımda:
- Llama 3.3 70B — Genel performansta sınıfının lideri. Türkçe iyi ama Qwen 32B kadar değil.
- Qwen 2.5 72B — En iyi Türkçe-yerel kombinasyonu. KOBİ’lerin “kendi ChatGPT’si” senaryosunda ilk tercih.
Apple Silicon Tavsiyesi
M2/M3/M4 çipli Mac’lerde unified memory mimarisi sayesinde standart bir laptop bile sunucu sınıfı işler görebilir:
| Mac Modeli | Çalıştırabileceği Maks. Model |
|---|---|
| M3 / 16 GB | Qwen 7B (Q4) — günlük asistan |
| M3 Pro / 36 GB | Qwen 14B (Q4) — profesyonel kullanım |
| M3 Max / 64 GB | Qwen 32B (Q4) veya Llama 70B (Q3) — küçük ekip için sunucu |
| M3 Ultra / 192 GB | Llama 3.3 70B full + paralel servis |
Kuantizasyon (Q4, Q5, Q8) bir modeli daha az belleğe sığdırma tekniğidir — kalite kaybı genelde dikkat çekecek seviyenin altında kalır, kazanç ise dört kata kadar çıkar.
Sık Sorulan Sorular
Yerel AI gerçekten KVKK uyumlu mu?
Evet — KVKK kapsamında “veri aktarımı” gerçekleşmediği sürece sorun çıkmaz. Yerel modelde girdiğiniz veri yalnızca kendi cihazınızın RAM’inde işlenir, sunucuya gönderilmez. Tabii şirket içi kullanımda erişim logları, kullanıcı kimlikleri ve verinin işlenme süresine dair kayıt tutmak yine gereklidir; bu, modelin yerel olup olmamasından bağımsız bir yükümlülük.
Şirkette kurmak için IT desteği şart mı?
Tek kullanıcı veya 1–10 kişilik küçük ekip için şart değil. LM Studio veya Ollama tek tıkla kurulur. 10+ kullanıcılı ortak kullanımda ise authentication, log retention ve backup gibi konular bir sistem yöneticisinin müdahalesini gerektirir.
Yerel AI bulut tabanlı AI’dan yavaş mı?
Genel olarak evet ama fark hissedilmeyebilir. ChatGPT 60–80 token/saniye üretirken, M3 Max’te Qwen 14B yaklaşık 25–35 token/saniye üretir. Okuyabildiğinizden hızlı olduğu sürece pratikte fark yoktur. Karmaşık akıl yürütme isteyen görevlerde bulut modelleri (Claude Opus, GPT-5.5) hâlâ daha doğru sonuç verir; oradaki kalite farkı hızdan değil model boyutundan gelir.
Hangi araç en kolay başlangıç noktası?
Teknik olmayan kullanıcılar için LM Studio, geliştiriciler için Ollama. İkisi de ücretsiz; bir cihazda paralel kurulabilir, hangisinde verim alıyorsanız onu kullanırsınız.
Bulut + yerel hibrit kullanılabilir mi?
Evet ve önerilir. Pratik desen: hassas veri yerelde, genel görevler bulutta. Örneğin bir hukuk bürosu sözleşme analizini LM Studio’da çalıştırır, blog metni veya genel araştırma için ChatGPT’ye gider. Tek belirleyici şart: yetkili kullanıcının hangi tür verinin nereye gideceğini net biliyor olması.
Bu Sayfadan Sonra Nereye
- AI Model Seçim Rehberi (Pillar) — Hangi model size uygun? Bulut ve yerel modellerin yan yana karşılaştırması
- Ollama Rehberi — Yerel kurulumun teknik adımları ve en iyi modeller
- Açık Kaynak AI Modelleri — Llama, Mistral, Qwen lisansları ve seçim kriterleri
- Ollama kurulum blogu — Adım adım ilk model çalıştırma
- Yapay zeka için donanım rehberi — VRAM, RAM, GPU seçimi