ChatGPT’ye bir şey sordunuzda cevap saniyeler içinde geliyor. Midjourney’de bir görsel ürettinizde milisaniyeler içinde ekranınızı dolduruyor. Peki bu hesaplama nerede gerçekleşiyor? Büyük olasılıkla, binlerce kilometre uzaktaki bir veri merkezinde, enerji faturası ayda milyonlarca doları bulan devasa GPU kümeleri üzerinde.
Ya siz kendi makinenizde aynı gücü istiyorsanız?
2026’da bu artık bir hayal değil. Llama 3, Mistral, Phi-3, Gemma 2 gibi açık kaynak Büyük Dil Modelleri (LLM) bilgisayarınızda yerel olarak çalışıyor; üstelik internet bağlantısı gerektirmeden, verilerinizi hiçbir sunucuya göndermeden. Ancak bunu yapabilmek için doğru donanımı seçmek şart. CPU mu daha önemli, GPU mu? 8 GB VRAM yeterli mi? Apple Silicon bu işte nerede duruyor?
Bu rehber, bu soruların hepsini net bir şekilde yanıtlıyor.
Neden Yerel Yapay Zeka? Üç Güçlü Neden
Bulut tabanlı AI servislerine abone olmak yerine kendi donanımınızda makine öğrenmesi modelleri çalıştırmanın üç temel avantajı vardır:
1. Gizlilik: Hastane kayıtları, hukuki belgeler, şirket içi veriler — bunların hiçbirini bir bulut API’sine göndermek istemezsiniz. Yerel model çalışırken verileriniz makinenizden hiç ayrılmaz.
2. Maliyet: OpenAI API’si, işlem başına ücret alır. Yoğun kullanımda aylık fatura hızla yüzlerce dolara çıkar. Kendi donanımınızı bir kez alırsınız; sonrasında sıfır token maliyetiyle sınırsız kullanım.
3. Gecikme (Latency): Buluta istek atma, yanıt bekleme ve indirme süresi yerel çalıştırmada sıfıra yaklaşır. Özellikle gerçek zamanlı uygulamalar (sesli asistan, anlık çeviri, kod tamamlama) için bu kritik bir fark.

İşlemci (CPU) Rolü: Orkestra Şefi
CPU’yu yapay zeka dünyasında küçümsemek kolay. “Her şey GPU’da çalışıyor zaten” diye düşünebilirsiniz. Bu kısmen doğru ama eksik bir resim.
CPU’nun AI iş akışındaki gerçek rolü şudur:
Veri Hazırlama (Data Preprocessing): Modele beslenmeden önce veri tokenize edilmeli, normalize edilmeli ve batch’lere bölünmelidir. Bu işlemlerin büyük bölümü CPU üzerinde gerçekleşir. Zayıf bir CPU, GPU’nuzun yarısını sürekli boşta bekletebilir — bu “CPU bottleneck” olarak bilinir.
Sistem Orkestrasyonu: Birden fazla modeli sırayla çalıştırmak, ajanlar arası (multi-agent) koordinasyon, dosya okuma/yazma ve ağ istekleri CPU’nun yönettiği görevlerdir.
Küçük Modeller İçin Çıkarım (Inference): Llama 3 8B gibi küçük modeller CPU’da da çalıştırılabilir. llama.cpp kütüphanesi sayesinde modern bir işlemci saniyede 5-15 token üretebilir. Gerçek zamanlı değil ama kullanılabilir bir hız.
NPU Nedir? İşlemcilerin Yeni Silahı
2024-2026 döneminin en önemli donanım gelişmelerinden biri, işlemcilerin içine gömülü NPU (Neural Processing Unit — Sinir İşleme Birimi) birimlerinin olgunlaşmasıdır.
NPU, CPU ya da GPU’dan farklı olarak yalnızca yapay zeka matris çarpımları için optimize edilmiş, düşük güç tüketimli bir devre birimidir. Microsoft’un Copilot+ PC sertifikasyon programı, bir sistemin NPU’sunun en az 40 TOPS (Trilyon İşlem/Saniye) kapasitesine sahip olmasını şart koşuyor.
2026’da öne çıkan NPU destekli platformlar:
- AMD Ryzen AI 9 HX 370 (Strix Point): 50 TOPS NPU ile dizüstü bilgisayarlarda segment lideri
- Intel Core Ultra 200 (Lunar Lake): 48 TOPS NPU, çok düşük güç tüketimi
- Apple M4: 38 TOPS NPU, ancak birleşik bellek mimarisiyle rekabeti farklı bir boyuta taşıyor (buna ayrıca değineceğiz)
- Qualcomm Snapdragon X Elite: 45 TOPS, ARM mimarisiyle Windows’ta öne çıkıyor
NPU, büyük modeller için GPU’nun yerini tutmuyor. Arka planda sürekli çalışan küçük modeller (ses tanıma, yüz kilidi açma, gerçek zamanlı çeviri) için ideal. Sürekli GPU’yu uyandırmadan bu görevleri işleyerek pil ömrünü dramatik ölçüde uzatıyor.
Özet: Masa üstü bir AI iş istasyonu kuruyorsanız CPU’yu ikinci plana atmayın. Ryzen 9 9950X veya Intel Core i9-14900KS gibi güçlü çok çekirdekli bir işlemci, GPU’nuzun tam potansiyelini kullanmasını sağlar.
Ekran Kartı (GPU) Neden Kral?
Bir sinir ağı, özünde devasa bir matris çarpımı yığınıdır. Milyarlarca parametre, birbirine bağlı katmanlar boyunca saniyede milyarlarca kez çarpılır, toplanır ve aktivasyon fonksiyonlarından geçirilir. Bu işlemlerin her biri diğerinden bağımsızdır — yani paralel olarak yapılabilir.
CPU’nun 16 ya da 32 güçlü çekirdeği bu işi sırayla yapar. GPU’nun ise on binlerce küçük çekirdeği aynı anda çalışır.
Nvidia RTX 4090’ın 16.384 CUDA çekirdeği olduğunu düşünün. Yeni nesil RTX 5090 ise 21.760 CUDA çekirdeğine sahip. Bu çekirdekler tek başına pek işe yaramaz; ama matris çarpımı gibi massif paralel hesaplamalar için biçilmiş kaftan.
CUDA Çekirdekleri mi, Tensor Çekirdekleri mi?
Nvidia GPU’larında iki farklı çekirdek türü vardır:
CUDA Çekirdekleri: Genel amaçlı hesaplama çekirdekleridir. Oyunlardan video işlemeye kadar her şeyde kullanılır. AI inference için de çalışırlar.
Tensor Çekirdekleri: Özellikle matris-matris çarpımı (GEMM) için tasarlanmış özel devrelerdir. FP16, BF16, INT8, FP8 gibi düşük hassasiyetli veri tiplerinde inanılmaz hız kazanımları sağlar. Bir RTX 5080’in Tensor çekirdekleri, aynı GPU’nun CUDA çekirdeklerinden AI inference’ta 4-8 kat daha hızlı çalışır.
Bu yüzden bir GPU satın alırken yalnızca CUDA çekirdek sayısına değil, Tensor çekirdek nesline de bakın. RTX 50 serisi, 5. nesil Tensor çekirdeklerine sahip ve FP4 hassasiyetini de destekliyor — bu, daha büyük modelleri daha az VRAM’le çalıştırmak anlamına geliyor.
VRAM vs. Saat Hızı: Yapay Zekada Asıl Tartışma
GPU seçerken en sık yapılan hata şudur: Saat hızına (boost clock) bakıp sevinmek.
Oyun dünyasında yüksek saat hızı FPS’i artırır. AI dünyasında ise saat hızı ikincil, VRAM kapasitesi birincildir.
Neden? Çünkü modeli çalıştırabilmek için tüm modelin GPU belleğine (VRAM’e) sığması gerekir.
Bunu şöyle somutlaştıralım. Bir LLM’in bellek ihtiyacı kabaca şu formülle hesaplanır:
VRAM (GB) ≈ (Parametre Sayısı × Bit Hassasiyeti) / 8
| Model | Parametre | FP16 VRAM | INT8 VRAM | INT4/GGUF VRAM |
|---|---|---|---|---|
| Llama 3.2 3B | 3 milyar | ~6 GB | ~3 GB | ~2 GB |
| Llama 3.1 8B | 8 milyar | ~16 GB | ~8 GB | ~4.5 GB |
| Mistral 22B | 22 milyar | ~44 GB | ~22 GB | ~12 GB |
| Llama 3.1 70B | 70 milyar | ~140 GB | ~70 GB | ~40 GB |
| Llama 3.1 405B | 405 milyar | ~810 GB | ~405 GB | ~230 GB |
Bir RTX 5070 Ti’nin 16 GB VRAM’i var. INT4 niceleme (quantization) ile Llama 3.1 70B modelini çalıştırmak için yaklaşık 40 GB’a ihtiyaç var — sığmaz. Ama Mistral 22B modelini INT4 ile rahatça çalıştırabilirsiniz.
Pratik kural: VRAM’iniz ne kadar büyükse, çalıştırabileceğiniz model o kadar büyük demektir. Büyük model, genellikle daha zeki ve yetenekli demektir.
Saat hızı ise modelin VRAM’e sığdıktan sonra ne kadar hızlı token üreteceğini etkiler. Önemli ama ikincil. 10 GB/s memory bandwidth farkı, token üretim hızında ancak %5-10 fark yaratır; ancak 8 GB VRAM ile 16 GB arasındaki fark, çalıştırabileceğiniz modelin tüm kapasitesini değiştirir.
Kıyaslama Tablosu: CPU vs GPU AI Performansı

Aşağıdaki tablo, farklı donanımların yerel LLM çalıştırma performansını (token/saniye, Llama 3.1 8B — INT4) göstermektedir:
| Donanım | VRAM / Bellek | Token/Saniye | Çalıştırılabilir Maks. Model | Kullanım |
|---|---|---|---|---|
| RTX 5090 | 32 GB GDDR7 | ~180 t/s | 70B (INT4) | Profesyonel |
| RTX 5080 | 16 GB GDDR7 | ~130 t/s | 22B (INT4) | Üst Segment |
| RTX 5070 Ti | 16 GB GDDR7 | ~105 t/s | 22B (INT4) | Üst Orta |
| RTX 5070 | 12 GB GDDR7 | ~80 t/s | 13B (INT4) | Orta Segment |
| RTX 4090 | 24 GB GDDR6X | ~115 t/s | 70B (INT4) | Önceki Nesil |
| RTX 4070 Super | 12 GB GDDR6X | ~60 t/s | 13B (INT4) | Uygun Fiyat |
| AMD RX 9070 XT | 16 GB GDDR6 | ~70 t/s | 22B (INT4) | AMD Alternatif |
| Apple M4 Pro | 48 GB Birleşik | ~95 t/s | 70B (INT4) | Mac Kullanıcısı |
| Apple M4 Max | 128 GB Birleşik | ~140 t/s | 405B parçalı | Üst Mac |
| CPU: Ryzen 9 9950X | Sistem RAM’i | ~8 t/s | RAM’e sığan | Yedek Seçenek |
Not: Token/saniye değerleri
ollamavellama.cppile ölçülen yaklaşık değerlerdir. Kullanılan niceleme, prompt uzunluğu ve sistem RAM hızına göre değişir.
2026 İçin Sistem Tavsiyeleri
Giriş Seviyesi: “İlk Adım” (~800-1200 USD / ~26.000-40.000 TL)
Bütçe kısıtlı ama yapay zekaya girmek isteyenler için:
- GPU: NVIDIA RTX 5070 (12 GB GDDR7) — Yeni nesil Tensor çekirdekleri, FP4 desteği
- CPU: AMD Ryzen 5 9600X veya Intel Core i5-14600K
- RAM: 32 GB DDR5-6000
- Depolama: 1 TB NVMe SSD (model dosyaları büyük olabilir)
- Güç Kaynağı: 750W 80+ Gold
Bu sistemle ne yapabilirsiniz? 7B-13B arası modelleri akıcı hızda (40-80 token/s), kod yazma asistanı, metin üretimi, local chatbot. Stable Diffusion ile görsel üretimi tam gaz.
Orta Segment: “Ciddi Geliştirici” (~2.000-3.000 USD / ~65.000-100.000 TL)
Profesyonel kullanım için ciddi bir rig:
- GPU: NVIDIA RTX 5080 (16 GB GDDR7) — 5. nesil Tensor çekirdekleri
- CPU: AMD Ryzen 9 9900X veya Intel Core i9-14900K
- RAM: 64 GB DDR5-6400
- Depolama: 2 TB NVMe Gen5 SSD
- Güç Kaynağı: 850W 80+ Gold
Bu sistemle ne yapabilirsiniz? Mistral 22B’yi tam hızda çalıştırın, fine-tuning deneyleri yapın, ComfyUI ile ileri düzey görsel akışları oluşturun, birden fazla modeli eş zamanlı çalıştırın.
Üst Segment (High-End): “AI İş İstasyonu” (~5.000+ USD / ~165.000+ TL)
Uzlaşma yok, yalnızca maksimum performans:
- GPU: NVIDIA RTX 5090 (32 GB GDDR7) — Mevcut en güçlü tüketici GPU
- CPU: AMD Ryzen 9 9950X (16 çekirdek) veya Intel Core i9-14900KS
- RAM: 128 GB DDR5-6400 ECC
- Depolama: 4 TB NVMe Gen5 (RAID değil, ayrı diskler)
- Güç Kaynağı: 1200W 80+ Platinum
Bu sistemle ne yapabilirsiniz? Llama 3.1 70B INT4 ile akıcı konuşma, orta ölçekli fine-tuning işlemleri, çoklu GPU hazırlığı (NVLink yerine PCIe 5.0 x16 ile çift GPU kurulumu mümkün), video diffusion modelleri.
RTX 50 Serisi Neden Özel? Blackwell mimarisi ile gelen RTX 50 ailesi, AI açısından önceki nesle kıyasla çok daha büyük bir sıçrama yapıyor. Yalnızca daha hızlı değil; FP4 tensor desteği sayesinde aynı VRAM’e artık daha büyük modeller sığıyor. 16 GB RTX 5080, belirli görevlerde 24 GB RTX 4090’ı geride bırakabiliyor.
Apple Silicon (M Serisi) Parantezi: Sessiz Devrim
Nvidia GTX ve RTX savaşlarının gölgesinde Apple, yapay zeka donanımı konusunda sessiz sedasız bir devrim yaptı.
Klasik PC mimarisinde CPU ve GPU ayrı devre kartlarıdır. CPU sistem RAM’ini (DDR5), GPU ise kendi VRAM’ini kullanır. Bu iki havuz arasında veri taşımak için PCIe veriyolu kullanılır — bu da bir darboğaz yaratır.
Apple M serisi çiplerde bu durum tamamen farklı. CPU, GPU ve NPU hepsi aynı yonga üzerinde ve hepsi aynı birleşik belleği (Unified Memory) paylaşır. M4 Pro’nun 48 GB belleği var. GPU bu 48 GB’ın tamamını kullanabilir — çünkü CPU/GPU ayrımı yok.

Bu farkın pratik anlamı şu: Bir M4 Pro MacBook Pro ile 70B parametreli bir modeli çalıştırabilirsiniz. Benzer fiyattaki bir Windows laptopa koyabileceğiniz en iyi GPU — hatta masaüstü RTX 5080 (16 GB VRAM) — bu modeli çalıştıramaz.
Mac vs PC: Nasıl Karar Verirsiniz?
Mac M serisi için:
- Laptop kullanıyorsunuz ve taşınabilirlik önemli
- Büyük modelleri (30B+) pil gücüyle çalıştırmak istiyorsunuz
- Fine-tuning yapmıyorsunuz, yalnızca inference
- macOS ekosistemi sizin için
PC RTX serisi için:
- CUDA ekosistemi şart (PyTorch, TensorFlow GPU, CUDA kütüphaneleri)
- Fine-tuning ve model eğitimi yapıyorsunuz
- Oyun da oynayacaksınız (Apple GPU’su oyun için değil)
- Bütçeniz belirli — aynı para daha fazla raw performance
Sıkça Sorulan Sorular (FAQ)
8 GB VRAM yeterli mi?
Kısa cevap: 2026’da çok sınırlı, ama sıfırdan iyi.
8 GB VRAM ile 7B parametreli modelleri INT4 nicelemesiyle çalıştırabilirsiniz (~4.5 GB). Bu, akıcı bir yerel chatbot ve kod asistanı için yeterli. Ancak büyük modellere veya Stable Diffusion’ın yeni XL/3.0 sürümlerine geçmek istediğinizde hızla yetersiz kalır. Eğer yeni bir GPU alıyorsanız minimum 12 GB, tercihan 16 GB seçin.
İşlemci olmadan yapay zeka çalışır mı?
Hayır. GPU tek başına bir sistem değildir; her zaman bir CPU ve sistem belleğine ihtiyaç duyar. Ancak CPU’nun AI inference’taki rolü koordinatördür, asıl iş GPU’da döner. CPU darboğazı yaşamamak için modern, çok çekirdekli bir işlemci yeterlidir — mutlaka en üst segmentten olmasına gerek yoktur.
Nvidia mi AMD mi?
Nvidia, AI için hâlâ açık ara önde. CUDA ekosistemi, on yıllık birikim ve PyTorch/TensorFlow’un birincil desteği Nvidia’yı zorunlu kılıyor. AMD’nin ROCm platformu gelişiyor ama Ollama, llama.cpp gibi araçların AMD desteği hâlâ sınırlı ve bazen sorunlu. Yalnızca inference yapacaksanız (eğitim değil), AMD’nin RX 9070 XT ciddi bir değer sunuyor — ama ekosistem sorunlarına hazırlıklı olun.
Birden fazla GPU mi yoksa tek güçlü GPU mu?
Tek güçlü GPU tercih edin. İki RTX 5070 (12 GB x2) yerine bir RTX 5090 (32 GB) almak daha mantıklı. Çünkü iki GPU arasındaki VRAM birleniyor gibi görünse de LLM inference için VRAM’lerin toplamı değil, tek bir GPU’nun VRAM’i geçerlidir (NVLink olmadan). Ayrıca çoklu GPU kurulumu daha yüksek güç tüketimi, ısı ve yazılım karmaşıklığı demek.
Kaç GB sistem RAM’i gerekiyor?
Minimum 32 GB, tercihen 64 GB. GPU’ya sığmayan büyük modeller sistem RAM’ini kullanabilir (CPU üzerinden çok yavaş inference). Ayrıca büyük veri setleriyle çalışırken, çoklu uygulama açıkken ve özellikle ince ayar (fine-tuning) denemeleri yaparken sistem RAM’i kritik hale gelir. DDR5-6000 veya üzeri hızlarda RAM, CPU ile GPU arasındaki veri transferini hızlandırır.
Sonuç: Doğru Soruyu Sormak
“CPU mu GPU mu daha önemli?” sorusuna dürüst cevap şudur: Yapay zeka için GPU, genel sistem sağlığı için CPU önemlidir. İkisi birbirini tamamlar.
2026’da yerel AI için donanım seçimi yaparken öncelik sıralamanız şöyle olmalı:
- VRAM miktarı — çalıştırabileceğiniz modelin tavanını belirler
- GPU nesli ve Tensor çekirdekleri — aynı VRAM’de daha hızlı inference
- CPU çekirdek sayısı ve hızı — GPU darboğazını önler
- Sistem RAM — GPU’ya taşmalar ve genel sistem performansı için
- Depolama hızı — model yükleme süreleri için (NVMe Gen4+)
Hangi segmentte olursanız olun, derin öğrenme modellerini yerel olarak çalıştırmak artık her zamankinden daha erişilebilir. Sözlüğümüzde algoritma, LLM ve makine öğrenimi gibi kavramları inceleyerek bu donanımlar üzerinde çalışan modellerin arka planını da öğrenebilirsiniz.
Hangi donanımı kullanıyorsunuz ya da hangi segmentte sistem topluyorsunuz? Aklınızdaki soruları yorumlarda paylaşın!