Gizlilik İçin Yerel Yapay Zeka: Şirket ve Kişisel Kullanım

Avukatsanız, muhasebeciyseniz veya doktorsanız, bir müşterinin sözleşmesini, bir hastanın raporunu ya da bir bilançoyu ChatGPT’ye yapıştırmadan önce bir saniye durun. O metin servis sağlayıcının sunucularında işlenir, log’lanır ve — şartlara bağlı olarak — bir sonraki model eğitiminde kullanılabilir. Aynı işi yerel yapay zeka ile, veriniz makinenizden hiç çıkmadan da yapabilirsiniz.

Bu rehber, “yerel AI” denilen şeyin neden artık yalnızca teknik bir tercih değil, belli sektörler için zorunlu bir uyum gereksinimi olduğunu anlatıyor. Sonra hangi aracı, hangi donanımda, hangi modelle kullanacağınızı pratik bir karar tablosuna oturtuyoruz.

Yerel AI Neden Önemli? Gizlilik Senaryolarıyla Anlatım

Bulut tabanlı bir asistana ne zaman bir mesaj yazsanız, o mesaj üç yerden geçer: sizin cihazınız, sağlayıcının veri merkezi ve sağlayıcının log altyapısı. Hangi mesajların eğitim verisi olarak saklandığı, hangilerinin silindiği, ne kadar süreyle tutulduğu — bunların hepsi şartlar belgesinde tek tek yazar ve ne yazık ki çoğu zaman değişebilir.

Yerel AI’da bu zincir kopar. Edge AI mimarisinde model ağırlıkları sizin sabit diskinizde, hesaplama kendi işlemci veya ekran kartınızda gerçekleşir. Veri loopback adresinin (127.0.0.1) ötesine geçmez.

KVKK ve Yerel İşleme Mantığı

KVKK 5. madde “kişisel verilerin işlenmesi” tanımını çok geniş tutar — “tamamen veya kısmen otomatik yollarla elde edilmesi, kaydedilmesi… aktarılması” işleme sayılır. Bir avukatın müvekkil yazışmasını ChatGPT’ye yapıştırması teknik olarak veri sorumlusunun açık rızası olmadan yurt dışına aktarım sorununu gündeme getirir. Aynı yazışma yerel bir modele girdiğinde aktarım söz konusu değildir.

Bu bir tavsiye değil, sektörel bir mecburiyet:

Hukuk büroları — Müvekkil belgeleri, dava dosyaları, sözleşmeler. Mesleki sır yükümlülüğü (Avukatlık Kanunu m. 36) sebebiyle üçüncü taraf işleme zaten sorunlu.
Sağlık kurumları — Hasta raporları, görüntüleme açıklamaları, anamnez metinleri. KVKK m. 6 kapsamında özel nitelikli veri; yurt dışı aktarım için açık rıza gerekir.
Finans ve muhasebe — Mali tablolar, müşteri portföyleri, denetim notları. Hem KVKK hem MASAK hem SPK yönetmelikleri devrede.
AR-GE ve patent süreci — Henüz yayımlanmamış teknik belgeler. Üçüncü taraf işleme patent başvurusunu sakatlayabilir.

Bulut Sağlayıcıların “Eğitime Kullanmıyoruz” Sözünün Sınırı

OpenAI Enterprise, Anthropic API, Google Workspace AI — hepsi “girişlerinizi eğitime kullanmıyoruz” diye yazar. Doğrudur ama eksiktir. Çünkü:

Log retention süresi vardır (genelde 30 gün). Bu süre içinde bir mahkeme kararı, bir güvenlik ihlali veya bir iç soruşturma metninize erişebilir.
Aktarım anında veri sunucuya zaten gitmiş olur. “Sonra silindi” geri dönüşü olmayan bir aktarımı geri almaz.
Servis şartları tek taraflı değiştirilebilir. Bugün eğitime kullanılmayan veri, üç ay sonra başka şekilde işlenebilir.

Yerel AI’da bu üçü de teknik olarak imkansızdır. Veri, üzerine konuştuğunuz makinenin RAM’inde yaşar ve siz uygulamayı kapattığınızda silinir.

Kurumsal Yerel AI: On-Premise Seçenekleri

“Yerel AI”yi bir kişinin laptop’ında çalıştırmak başka bir şey, 50 kişilik bir hukuk bürosunun ortak kullanımına açmak başka. Ölçeğe göre dört temel mimari öne çıkıyor.

1–10 Kişi: Ollama + Basit API

En küçük ölçek için Ollama + ortak bir iş istasyonu yeterli. Bir kişi sunucu rolü oynar, diğerleri yerel ağ üzerinden bağlanır.

Donanım: 1× RTX 4090 (24 GB VRAM) veya M3 Max 64 GB
Kurulum: ollama serve + nginx reverse proxy
Erişim: Open WebUI yerel ağda paylaşılır, kullanıcı başına hesap
Maliyet: ~80.000–120.000 TL tek seferlik donanım

Ollama kurulum adımları için ayrıntılı rehber ayrı bir blogda işlenmiştir; bu cluster’da seçim ve karar konuları ele alınır.

10–100 Kişi: Open WebUI + LDAP/SSO

Orta ölçek için işin ciddiyeti artar: kullanıcı yönetimi, denetim logları, model bazında izinler gerekir.

Donanım: Tek sunucu (2× RTX 6000 Ada 48 GB) veya küçük cluster
Yazılım katmanı: Open WebUI + LDAP/Microsoft Entra ID entegrasyonu, model bazlı RBAC
Backup ve log retention: 30 gün, denetim için ayrı bir sistemde
IT yükü: Yarı zamanlı bir sistem yöneticisi

100+ Kişi: vLLM, LM Studio Enterprise veya Ollama Cluster

Büyük ölçek artık “yerel” değil “on-prem”e dönüşür. Tek bir GPU yetmez; eş zamanlı 30+ isteğe yanıt verecek bir inference cluster gerekir.

Çözüm	Güçlü Yönü	Lisans Modeli
vLLM	En yüksek throughput, açık kaynak	Apache 2.0
LM Studio Enterprise	GUI öncelikli, idari kontrol	Ticari abonelik
Text Generation Inference (TGI)	HuggingFace ekosistemine yakın	Apache 2.0
Ollama Cluster (deneysel)	Tanıdık API, basit operasyon	MIT

Bu ölçekte donanım yatırımı 1–3 milyon TL bandına çıkabilir; ama 50+ kullanıcılı bir kurumda OpenAI Enterprise abonelik bedeli ilk yıl içinde başa baş gelir, ikinci yıldan itibaren tasarruf eder.

Minimum Donanım Önerileri

Hangi ölçekte olursanız olun, doğru donanım seçimi modelle eşleştirilmeli:

Ölçek	Önerilen GPU	Çalıştırabileceği Model
Bireysel — laptop	M3 Pro 36 GB / RTX 4070 8 GB	Phi-4 Mini, Gemma 3 4B, Qwen 7B
Bireysel — iş istasyonu	RTX 4090 24 GB / M3 Max 64 GB	Qwen 14B, Llama 8B, Mistral Small
Küçük ekip — sunucu	1× RTX 6000 Ada 48 GB	Qwen 32B, Llama 3.3 70B (Q4)
Kurumsal — cluster	4–8× H100 80 GB	Llama 3.3 70B full precision, paralel servis

Donanım seçiminin daha derinlikli ele alındığı kaynak: Yapay zeka için donanım rehberi.

Hangi Araç Hangi Senaryo İçin?

Yerel AI ekosisteminde dört araç sürekli adı geçen, üretime hazır seçenekler. Her birinin farklı bir hedef profili var.

Ollama — Geliştirici ve Teknik Kullanıcı

Kullanıcı profili: Komut satırına alışkın, kurulum/güncelleme/script yazmaktan rahatsız olmayan kullanıcılar
Güçlü yönü: Tek komut model indirme, basit REST API, çok geniş model kütüphanesi
Zayıf yönü: GUI yok; arayüz isteyen kullanıcı Open WebUI’ı ayrıca kurmalı

Detaylı incelemesi Ollama cluster sayfasında.

LM Studio — Teknik Olmayan Kullanıcı

Kullanıcı profili: GUI’yle çalışmak isteyen, terminal komutu yazmak istemeyen profesyoneller (hukuk, sağlık, finans)
Güçlü yönü: Drag-and-drop model yükleme, gömülü chat arayüzü, dosya analizi tek tıkla
Zayıf yönü: Kapalı kaynak; lisans şartları büyük ölçekte sınırlayıcı

Jan — Cross-Platform Masaüstü Asistanı

Kullanıcı profili: Birden fazla işletim sistemi kullanan, tek bir tutarlı arayüz isteyen kullanıcılar
Güçlü yönü: Açık kaynak (AGPL), tüm OS’lerde aynı deneyim, OpenAI uyumlu yerel API
Zayıf yönü: Topluluk LM Studio kadar büyük değil; bazı modellerle uyum sorunları çıkabilir

PrivateGPT — Kendi Belgenizle RAG

Kullanıcı profili: Şirket içi belge tabanı üzerinde sorgu yapmak isteyen ekipler
Güçlü yönü: Yerleşik RAG yapısı; PDF, Word, Markdown otomatik indekslenir
Zayıf yönü: Tek başına chat arayüzü değil; ek bir UI katmanı gerekir

Hızlı Karar Tablosu

Senaryo	Önerilen Araç
Tek kişilik kullanım, GUI istiyorum	LM Studio veya Jan
Geliştiriciyim, otomatize edeceğim	Ollama
Kurum içi belge sorgulama	PrivateGPT veya Open WebUI + Ollama + RAG
5+ kullanıcılı ortak kurum kullanımı	Open WebUI + Ollama backend

Model Seçimi: Gizlilik + Türkçe Performans Dengesi

Yerel AI’da iki kısıt birbirine ters çalışır: daha büyük model = daha iyi cevap ama daha büyük donanım. Türkçe özelinde ise bir modelin parametre sayısı ile Türkçe performansı arasında doğrusal bir ilişki yok — bazı küçük modeller (Qwen) ana dilinde İngilizce bir devden daha iyi Türkçe üretir.

Küçük + Güçlü: Hafif Donanımda Çalışan Modeller

8 GB VRAM’i olan herhangi bir bilgisayar veya M2/M3 çipli MacBook için:

Phi-4 Mini (3.8B) — Microsoft’un Apache 2.0 lisanslı modeli. Genel kullanımda şaşırtıcı kaliteli, Türkçe orta.
Gemma 3 4B — Google’ın açık ağırlıklı modeli. Türkçe destek son sürümle çok iyileşti.
Qwen 2.5 7B — En iyi küçük-Türkçe kombinasyonu. Aşağıdaki orta sınıfa hemen geçmek için ideal başlangıç.

Orta Boy: 14–32B Parametreli Modeller

16–24 GB VRAM veya 32+ GB unified memory (M3 Max) için:

Qwen 2.5 14B — Türkçe için yerel ekosistemdeki en iyi denge noktası. Alibaba’nın bu modeli özellikle çok dilli senaryolarda Llama’nın aynı boyutuna fark atar.
Mistral Small 3.1 24B — Apache 2.0 lisanslı. Avrupa veri yönetmelikleri uyum açısından kurumlar tarafından tercih edilir.
DeepSeek V2 16B — Akıl yürütme ve kod görevlerinde öne çıkar; Türkçe orta.

Büyük: 70B+ Modeller (Sunucu Sınıfı)

48 GB+ VRAM gerektirir. Genelde bir hukuk bürosu veya orta ölçekli şirket için aşırı; ama büyük kurumsal kullanımda:

Llama 3.3 70B — Genel performansta sınıfının lideri. Türkçe iyi ama Qwen 32B kadar değil.
Qwen 2.5 72B — En iyi Türkçe-yerel kombinasyonu. KOBİ’lerin “kendi ChatGPT’si” senaryosunda ilk tercih.

Apple Silicon Tavsiyesi

M2/M3/M4 çipli Mac’lerde unified memory mimarisi sayesinde standart bir laptop bile sunucu sınıfı işler görebilir:

Mac Modeli	Çalıştırabileceği Maks. Model
M3 / 16 GB	Qwen 7B (Q4) — günlük asistan
M3 Pro / 36 GB	Qwen 14B (Q4) — profesyonel kullanım
M3 Max / 64 GB	Qwen 32B (Q4) veya Llama 70B (Q3) — küçük ekip için sunucu
M3 Ultra / 192 GB	Llama 3.3 70B full + paralel servis

Kuantizasyon (Q4, Q5, Q8) bir modeli daha az belleğe sığdırma tekniğidir — kalite kaybı genelde dikkat çekecek seviyenin altında kalır, kazanç ise dört kata kadar çıkar.

Sık Sorulan Sorular

Yerel AI gerçekten KVKK uyumlu mu?

Evet — KVKK kapsamında “veri aktarımı” gerçekleşmediği sürece sorun çıkmaz. Yerel modelde girdiğiniz veri yalnızca kendi cihazınızın RAM’inde işlenir, sunucuya gönderilmez. Tabii şirket içi kullanımda erişim logları, kullanıcı kimlikleri ve verinin işlenme süresine dair kayıt tutmak yine gereklidir; bu, modelin yerel olup olmamasından bağımsız bir yükümlülük.

Şirkette kurmak için IT desteği şart mı?

Tek kullanıcı veya 1–10 kişilik küçük ekip için şart değil. LM Studio veya Ollama tek tıkla kurulur. 10+ kullanıcılı ortak kullanımda ise authentication, log retention ve backup gibi konular bir sistem yöneticisinin müdahalesini gerektirir.

Yerel AI bulut tabanlı AI’dan yavaş mı?

Genel olarak evet ama fark hissedilmeyebilir. ChatGPT 60–80 token/saniye üretirken, M3 Max’te Qwen 14B yaklaşık 25–35 token/saniye üretir. Okuyabildiğinizden hızlı olduğu sürece pratikte fark yoktur. Karmaşık akıl yürütme isteyen görevlerde bulut modelleri (Claude Opus, GPT-5.5) hâlâ daha doğru sonuç verir; oradaki kalite farkı hızdan değil model boyutundan gelir.

Hangi araç en kolay başlangıç noktası?

Teknik olmayan kullanıcılar için LM Studio, geliştiriciler için Ollama. İkisi de ücretsiz; bir cihazda paralel kurulabilir, hangisinde verim alıyorsanız onu kullanırsınız.

Bulut + yerel hibrit kullanılabilir mi?

Evet ve önerilir. Pratik desen: hassas veri yerelde, genel görevler bulutta. Örneğin bir hukuk bürosu sözleşme analizini LM Studio’da çalıştırır, blog metni veya genel araştırma için ChatGPT’ye gider. Tek belirleyici şart: yetkili kullanıcının hangi tür verinin nereye gideceğini net biliyor olması.

Bu Sayfadan Sonra Nereye

AI Model Seçim Rehberi (Pillar) — Hangi model size uygun? Bulut ve yerel modellerin yan yana karşılaştırması
Ollama Rehberi — Yerel kurulumun teknik adımları ve en iyi modeller
Açık Kaynak AI Modelleri — Llama, Mistral, Qwen lisansları ve seçim kriterleri
Ollama kurulum blogu — Adım adım ilk model çalıştırma
Yapay zeka için donanım rehberi — VRAM, RAM, GPU seçimi