Yerel AI için kaç GB VRAM gerekiyor?

7B parametreli modeller için en az 6 GB VRAM yeterlidir. 13B modeller için 10-12 GB, 70B modeller için ise 24-48 GB VRAM gerekir. VRAM yetersizse model CPU'ya kayar, performans 5-10x düşer ama çalışmaya devam eder.

GPU olmadan sadece CPU ile yerel AI çalıştırabilir miyim?

Evet. Ollama, NVIDIA/AMD GPU yoksa modeli otomatik CPU moduna alır. Modern bir Intel/AMD işlemcide 7B model saniyede 3-15 token üretir; okunabilir ama yavaş bir hız. Küçük modeller (Phi-3 Mini, 3B) CPU'da daha akıcı çalışır.

RTX 4060 (8 GB VRAM) yerel AI için yeterli mi?

Evet, 7B ve 8B modelleri akıcı çalıştırır. Llama 3.1 8B ve Mistral 7B Q4 quantize versiyonları RTX 4060'ta saniyede 40-60 token üretir. 13B modeller kısmen RAM'e taşar, hız düşer.

CPU mu yoksa GPU mu daha önemli yerel AI'de?

Çıkarım (inference) için GPU çok daha önemlidir. CPU bant genişliği ve RAM kapasitesi ise GPU VRAM'in yetersiz kaldığı durumlarda kritik olur. İdeal yapılandırma: yüksek VRAM'li GPU + yeterli sistem RAM (16-32 GB).

Yapay Zeka İçin Donanım Rehberi: İşlemci mi, Ekran Kartı mı Daha

list_altİçindekilerexpand_more

01Neden Yerel Yapay Zeka? Üç Güçlü Neden
02İşlemci (CPU) Rolü: Orkestra Şefi
03NPU Nedir? İşlemcilerin Yeni Silahı
04Ekran Kartı (GPU) Neden Kral?
05CUDA Çekirdekleri mi, Tensor Çekirdekleri mi?
06VRAM vs. Saat Hızı: Yapay Zekada Asıl Tartışma
07Kıyaslama Tablosu: CPU vs GPU AI Performansı
082026 İçin Sistem Tavsiyeleri
09Giriş Seviyesi: “İlk Adım” (~800-1200 USD / ~26.000-40.000 TL)
10Orta Segment: “Ciddi Geliştirici” (~2.000-3.000 USD / ~65.000-100.000 TL)
11Üst Segment (High-End): “AI İş İstasyonu” (~5.000+ USD / ~165.000+ TL)
12Apple Silicon (M Serisi) Parantezi: Sessiz Devrim
13Mac vs PC: Nasıl Karar Verirsiniz?
14Sıkça Sorulan Sorular (FAQ)
158 GB VRAM yeterli mi?
16İşlemci olmadan yapay zeka çalışır mı?
17Nvidia mi AMD mi?
18Birden fazla GPU mi yoksa tek güçlü GPU mu?
19Kaç GB sistem RAM’i gerekiyor?
20Sonuç: Doğru Soruyu Sormak

ChatGPT’ye bir şey sordunuzda cevap saniyeler içinde geliyor. Midjourney’de bir görsel ürettinizde milisaniyeler içinde ekranınızı dolduruyor. Peki bu hesaplama nerede gerçekleşiyor? Büyük olasılıkla, binlerce kilometre uzaktaki bir veri merkezinde, enerji faturası ayda milyonlarca doları bulan devasa GPU kümeleri üzerinde.

Ya siz kendi makinenizde aynı gücü istiyorsanız?

2026’da bu artık bir hayal değil. Llama 3, Mistral, Phi-3, Gemma 2 gibi açık kaynak Büyük Dil Modelleri (LLM) bilgisayarınızda yerel olarak çalışıyor; üstelik internet bağlantısı gerektirmeden, verilerinizi hiçbir sunucuya göndermeden. Ancak bunu yapabilmek için doğru donanımı seçmek şart. CPU mu daha önemli, GPU mu? 8 GB VRAM yeterli mi? Apple Silicon bu işte nerede duruyor?

Bu rehber, bu soruların hepsini net bir şekilde yanıtlıyor.

Neden Yerel Yapay Zeka? Üç Güçlü Neden

Bulut tabanlı AI servislerine abone olmak yerine kendi donanımınızda makine öğrenmesi modelleri çalıştırmanın üç temel avantajı vardır:

1. Gizlilik: Hastane kayıtları, hukuki belgeler, şirket içi veriler, bunların hiçbirini bir bulut API’sine göndermek istemezsiniz. Yerel model çalışırken verileriniz makinenizden hiç ayrılmaz.

2. Maliyet: OpenAI API’si, işlem başına ücret alır. Yoğun kullanımda aylık fatura hızla yüzlerce dolara çıkar. Kendi donanımınızı bir kez alırsınız; sonrasında sıfır token maliyetiyle sınırsız kullanım.

3. Gecikme (Latency): Buluta istek atma, yanıt bekleme ve indirme süresi yerel çalıştırmada sıfıra yaklaşır. Özellikle gerçek zamanlı uygulamalar (sesli asistan, anlık çeviri, kod tamamlama) için bu kritik bir fark.

RTX 5070 Ti ve CPU Yapay Zeka İş Yükü Karşılaştırması Modern AI iş yüklerinde GPU ve CPU mimarileri birbirini tamamlar; ancak çok farklı rolleri vardır.

İşlemci (CPU) Rolü: Orkestra Şefi

CPU’yu yapay zeka dünyasında küçümsemek kolay. “Her şey GPU’da çalışıyor zaten” diye düşünebilirsiniz. Bu kısmen doğru ama eksik bir resim.

CPU’nun AI iş akışındaki gerçek rolü şudur:

Veri Hazırlama (Data Preprocessing): Modele beslenmeden önce veri tokenize edilmeli, normalize edilmeli ve batch’lere bölünmelidir. Bu işlemlerin büyük bölümü CPU üzerinde gerçekleşir. Zayıf bir CPU, GPU’nuzun yarısını sürekli boşta bekletebilir, bu “CPU bottleneck” olarak bilinir.

Sistem Orkestrasyonu: Birden fazla modeli sırayla çalıştırmak, ajanlar arası (multi-agent) koordinasyon, dosya okuma/yazma ve ağ istekleri CPU’nun yönettiği görevlerdir.

Küçük Modeller İçin Çıkarım (Inference): Llama 3 8B gibi küçük modeller CPU’da da çalıştırılabilir. llama.cpp kütüphanesi ile modern bir işlemci saniyede 5-15 token üretebilir. Gerçek zamanlı değil ama kullanılabilir bir hız.

NPU Nedir? İşlemcilerin Yeni Silahı

2024-2026 döneminin en önemli donanım gelişmelerinden biri, işlemcilerin içine gömülü NPU (Neural Processing Unit, Sinir İşleme Birimi) birimlerinin olgunlaşmasıdır.

NPU, CPU ya da GPU’dan farklı olarak yalnızca yapay zeka matris çarpımları için optimize edilmiş, düşük güç tüketimli bir devre birimidir. Microsoft’un Copilot+ PC sertifikasyon programı, bir sistemin NPU’sunun en az 40 TOPS (Trilyon İşlem/Saniye) kapasitesine sahip olmasını şart koşuyor.

2026’da öne çıkan NPU destekli platformlar:

AMD Ryzen AI 9 HX 370 (Strix Point): 50 TOPS NPU ile dizüstü bilgisayarlarda segment lideri
Intel Core Ultra 200 (Lunar Lake): 48 TOPS NPU, çok düşük güç tüketimi
Apple M4: 38 TOPS NPU, ancak birleşik bellek mimarisiyle rekabeti farklı bir boyuta taşıyor (buna ayrıca değineceğiz)
Qualcomm Snapdragon X Elite: 45 TOPS, ARM mimarisiyle Windows’ta öne çıkıyor

NPU, büyük modeller için GPU’nun yerini tutmuyor. Arka planda sürekli çalışan küçük modeller (ses tanıma, yüz kilidi açma, gerçek zamanlı çeviri) için ideal. Sürekli GPU’yu uyandırmadan bu görevleri işleyerek pil ömrünü dramatik ölçüde uzatıyor.

Özet: Masa üstü bir AI iş istasyonu kuruyorsanız CPU’yu ikinci plana atmayın. Ryzen 9 9950X veya Intel Core i9-14900KS gibi güçlü çok çekirdekli bir işlemci, GPU’nuzun tam potansiyelini kullanmasını sağlar.

Ekran Kartı (GPU) Neden Kral?

Bir sinir ağı, özünde devasa bir matris çarpımı yığınıdır. Milyarlarca parametre, birbirine bağlı katmanlar boyunca saniyede milyarlarca kez çarpılır, toplanır ve aktivasyon fonksiyonlarından geçirilir. Bu işlemlerin her biri diğerinden bağımsızdır, yani paralel olarak yapılabilir.

CPU’nun 16 ya da 32 güçlü çekirdeği bu işi sırayla yapar. GPU’nun ise on binlerce küçük çekirdeği aynı anda çalışır.

Nvidia RTX 4090’ın 16.384 CUDA çekirdeği olduğunu düşünün. Yeni nesil RTX 5090 ise 21.760 CUDA çekirdeğine sahip. Bu çekirdekler tek başına pek işe yaramaz; ama matris çarpımı gibi massif paralel hesaplamalar için biçilmiş kaftan.

CUDA Çekirdekleri mi, Tensor Çekirdekleri mi?

Nvidia GPU’larında iki farklı çekirdek türü vardır:

CUDA Çekirdekleri: Genel amaçlı hesaplama çekirdekleridir. Oyunlardan video işlemeye kadar her şeyde kullanılır. AI inference için de çalışırlar.

Tensor Çekirdekleri: Özellikle matris-matris çarpımı (GEMM) için tasarlanmış özel devrelerdir. FP16, BF16, INT8, FP8 gibi düşük hassasiyetli veri tiplerinde inanılmaz hız kazanımları sağlar. Bir RTX 5080’in Tensor çekirdekleri, aynı GPU’nun CUDA çekirdeklerinden AI inference’ta 4-8 kat daha hızlı çalışır.

Bu yüzden bir GPU satın alırken yalnızca CUDA çekirdek sayısına değil, Tensor çekirdek nesline de bakın. RTX 50 serisi, 5. nesil Tensor çekirdeklerine sahip ve FP4 hassasiyetini de destekliyor, bu, daha büyük modelleri daha az VRAM’le çalıştırmak anlamına geliyor.

VRAM vs. Saat Hızı: Yapay Zekada Asıl Tartışma

GPU seçerken en sık yapılan hata şudur: Saat hızına (boost clock) bakıp sevinmek.

Oyun dünyasında yüksek saat hızı FPS’i artırır. AI dünyasında ise saat hızı ikincil, VRAM kapasitesi birincildir.

Neden? Çünkü modeli çalıştırabilmek için tüm modelin GPU belleğine (VRAM’e) sığması gerekir.

Bunu şöyle somutlaştıralım. Bir LLM’in bellek ihtiyacı kabaca şu formülle hesaplanır:

VRAM (GB) ≈ (Parametre Sayısı × Bit Hassasiyeti) / 8

Model	Parametre	FP16 VRAM	INT8 VRAM	INT4/GGUF VRAM
Llama 3.2 3B	3 milyar	~6 GB	~3 GB	~2 GB
Llama 3.1 8B	8 milyar	~16 GB	~8 GB	~4.5 GB
Mistral 22B	22 milyar	~44 GB	~22 GB	~12 GB
Llama 3.1 70B	70 milyar	~140 GB	~70 GB	~40 GB
Llama 3.1 405B	405 milyar	~810 GB	~405 GB	~230 GB

Bir RTX 5070 Ti’nin 16 GB VRAM’i var. INT4 niceleme (quantization) ile Llama 3.1 70B modelini çalıştırmak için yaklaşık 40 GB’a ihtiyaç var, sığmaz. Ama Mistral 22B modelini INT4 ile rahatça çalıştırabilirsiniz.

Pratik kural: VRAM’iniz ne kadar büyükse, çalıştırabileceğiniz model o kadar büyük demektir. Büyük model, genellikle daha zeki ve yetenekli demektir.

Saat hızı ise modelin VRAM’e sığdıktan sonra ne kadar hızlı token üreteceğini etkiler. Önemli ama ikincil. 10 GB/s memory bandwidth farkı, token üretim hızında ancak %5-10 fark yaratır; ancak 8 GB VRAM ile 16 GB arasındaki fark, çalıştırabileceğiniz modelin tüm kapasitesini değiştirir.

Kıyaslama Tablosu: CPU vs GPU AI Performansı

Donanım Kıyaslama ve Sistem Tavsiyeleri RTX 50 serisi GPU’lar, AI inference görevlerinde önceki nesle kıyasla dramatik hız artışı sunuyor.

Aşağıdaki tablo, farklı donanımların yerel LLM çalıştırma performansını (token/saniye, Llama 3.1 8B, INT4) göstermektedir:

Donanım	VRAM / Bellek	Token/Saniye	Çalıştırılabilir Maks. Model	Kullanım
RTX 5090	32 GB GDDR7	~180 t/s	70B (INT4)	Profesyonel
RTX 5080	16 GB GDDR7	~130 t/s	22B (INT4)	Üst Segment
RTX 5070 Ti	16 GB GDDR7	~105 t/s	22B (INT4)	Üst Orta
RTX 5070	12 GB GDDR7	~80 t/s	13B (INT4)	Orta Segment
RTX 4090	24 GB GDDR6X	~115 t/s	70B (INT4)	Önceki Nesil
RTX 4070 Super	12 GB GDDR6X	~60 t/s	13B (INT4)	Uygun Fiyat
AMD RX 9070 XT	16 GB GDDR6	~70 t/s	22B (INT4)	AMD Alternatif
Apple M4 Pro	48 GB Birleşik	~95 t/s	70B (INT4)	Mac Kullanıcısı
Apple M4 Max	128 GB Birleşik	~140 t/s	405B parçalı	Üst Mac
CPU: Ryzen 9 9950X	Sistem RAM’i	~8 t/s	RAM’e sığan	Yedek Seçenek

Not: Token/saniye değerleri ollama ve llama.cpp ile ölçülen yaklaşık değerlerdir. Kullanılan niceleme, prompt uzunluğu ve sistem RAM hızına göre değişir.

2026 İçin Sistem Tavsiyeleri

Giriş Seviyesi: “İlk Adım” (~800-1200 USD / ~26.000-40.000 TL)

Bütçe kısıtlı ama yapay zekaya girmek isteyenler için:

GPU: NVIDIA RTX 5070 (12 GB GDDR7), Yeni nesil Tensor çekirdekleri, FP4 desteği
CPU: AMD Ryzen 5 9600X veya Intel Core i5-14600K
RAM: 32 GB DDR5-6000
Depolama: 1 TB NVMe SSD (model dosyaları büyük olabilir)
Güç Kaynağı: 750W 80+ Gold

Bu sistemle ne yapabilirsiniz? 7B-13B arası modelleri akıcı hızda (40-80 token/s), kod yazma asistanı, metin üretimi, local chatbot. Stable Diffusion ile görsel üretimi tam gaz.

Orta Segment: “Ciddi Geliştirici” (~2.000-3.000 USD / ~65.000-100.000 TL)

Profesyonel kullanım için ciddi bir rig:

GPU: NVIDIA RTX 5080 (16 GB GDDR7), 5. nesil Tensor çekirdekleri
CPU: AMD Ryzen 9 9900X veya Intel Core i9-14900K
RAM: 64 GB DDR5-6400
Depolama: 2 TB NVMe Gen5 SSD
Güç Kaynağı: 850W 80+ Gold

Bu sistemle ne yapabilirsiniz? Mistral 22B’yi tam hızda çalıştırın, fine-tuning deneyleri yapın, ComfyUI ile ileri düzey görsel akışları oluşturun, birden fazla modeli eş zamanlı çalıştırın.

Üst Segment (High-End): “AI İş İstasyonu” (~5.000+ USD / ~165.000+ TL)

Uzlaşma yok, yalnızca maksimum performans:

GPU: NVIDIA RTX 5090 (32 GB GDDR7), Mevcut en güçlü tüketici GPU
CPU: AMD Ryzen 9 9950X (16 çekirdek) veya Intel Core i9-14900KS
RAM: 128 GB DDR5-6400 ECC
Depolama: 4 TB NVMe Gen5 (RAID değil, ayrı diskler)
Güç Kaynağı: 1200W 80+ Platinum

Bu sistemle ne yapabilirsiniz? Llama 3.1 70B INT4 ile akıcı konuşma, orta ölçekli fine-tuning işlemleri, çoklu GPU hazırlığı (NVLink yerine PCIe 5.0 x16 ile çift GPU kurulumu mümkün), video diffusion modelleri.

RTX 50 Serisi Neden Özel? Blackwell mimarisi ile gelen RTX 50 ailesi, AI açısından önceki nesle kıyasla çok daha büyük bir sıçrama yapıyor. Yalnızca daha hızlı değil; FP4 tensor desteği ile aynı VRAM’e artık daha büyük modeller sığıyor. 16 GB RTX 5080, belirli görevlerde 24 GB RTX 4090’ı geride bırakabiliyor.

Apple Silicon (M Serisi) Parantezi: Sessiz Devrim

Nvidia GTX ve RTX savaşlarının gölgesinde Apple, yapay zeka donanımı konusunda sessiz sedasız bir devrim yaptı.

Klasik PC mimarisinde CPU ve GPU ayrı devre kartlarıdır. CPU sistem RAM’ini (DDR5), GPU ise kendi VRAM’ini kullanır. Bu iki havuz arasında veri taşımak için PCIe veriyolu kullanılır, bu da bir darboğaz yaratır.

Apple M serisi çiplerde bu durum tamamen farklı. CPU, GPU ve NPU hepsi aynı yonga üzerinde ve hepsi aynı birleşik belleği (Unified Memory) paylaşır. M4 Pro’nun 48 GB belleği var. GPU bu 48 GB’ın tamamını kullanabilir, çünkü CPU/GPU ayrımı yok.

Apple Silicon Birleşik Bellek Mimarisi vs Geleneksel PC Mimarisi Apple M serisi çiplerin birleşik bellek mimarisi, yapay zeka çalıştırmada geleneksel PC’den temel biçimde farklı çalışır.

Bu farkın pratik anlamı şu: Bir M4 Pro MacBook Pro ile 70B parametreli bir modeli çalıştırabilirsiniz. Benzer fiyattaki bir Windows laptopa koyabileceğiniz en iyi GPU, hatta masaüstü RTX 5080 (16 GB VRAM), bu modeli çalıştıramaz.

Mac vs PC: Nasıl Karar Verirsiniz?

Mac M serisi için:

Laptop kullanıyorsunuz ve taşınabilirlik önemli
Büyük modelleri (30B+) pil gücüyle çalıştırmak istiyorsunuz
Fine-tuning yapmıyorsunuz, yalnızca inference
macOS ekosistemi sizin için

PC RTX serisi için:

CUDA ekosistemi şart (PyTorch, TensorFlow GPU, CUDA kütüphaneleri)
Fine-tuning ve model eğitimi yapıyorsunuz
Oyun da oynayacaksınız (Apple GPU’su oyun için değil)
Bütçeniz belirli, aynı para daha fazla raw performance

Sıkça Sorulan Sorular (FAQ)

8 GB VRAM yeterli mi?

Kısa cevap: 2026’da çok sınırlı, ama sıfırdan iyi.

8 GB VRAM ile 7B parametreli modelleri INT4 nicelemesiyle çalıştırabilirsiniz (~4.5 GB). Bu, akıcı bir yerel chatbot ve kod asistanı için yeterli. Ancak büyük modellere veya Stable Diffusion’ın yeni XL/3.0 sürümlerine geçmek istediğinizde hızla yetersiz kalır. Eğer yeni bir GPU alıyorsanız minimum 12 GB, tercihan 16 GB seçin.

İşlemci olmadan yapay zeka çalışır mı?

Hayır. GPU tek başına bir sistem değildir; her zaman bir CPU ve sistem belleğine ihtiyaç duyar. Ancak CPU’nun AI inference’taki rolü koordinatördür, asıl iş GPU’da döner. CPU darboğazı yaşamamak için modern, çok çekirdekli bir işlemci yeterlidir, mutlaka en üst segmentten olmasına gerek yoktur.

Nvidia mi AMD mi?

Nvidia, AI için hâlâ açık ara önde. CUDA ekosistemi, on yıllık birikim ve PyTorch/TensorFlow’un birincil desteği Nvidia’yı zorunlu kılıyor. AMD’nin ROCm platformu gelişiyor ama Ollama, llama.cpp gibi araçların AMD desteği hâlâ sınırlı ve bazen sorunlu. Yalnızca inference yapacaksanız (eğitim değil), AMD’nin RX 9070 XT ciddi bir değer sunuyor, ama ekosistem sorunlarına hazırlıklı olun.

Birden fazla GPU mi yoksa tek güçlü GPU mu?

Tek güçlü GPU tercih edin. İki RTX 5070 (12 GB x2) yerine bir RTX 5090 (32 GB) almak daha mantıklı. Çünkü iki GPU arasındaki VRAM birleniyor gibi görünse de LLM inference için VRAM’lerin toplamı değil, tek bir GPU’nun VRAM’i geçerlidir (NVLink olmadan). Ayrıca çoklu GPU kurulumu daha yüksek güç tüketimi, ısı ve yazılım karmaşıklığı demek.

Kaç GB sistem RAM’i gerekiyor?

Minimum 32 GB, tercihen 64 GB. GPU’ya sığmayan büyük modeller sistem RAM’ini kullanabilir (CPU üzerinden çok yavaş inference). Ayrıca büyük veri setleriyle çalışırken, çoklu uygulama açıkken ve özellikle ince ayar (fine-tuning) denemeleri yaparken sistem RAM’i kritik hale gelir. DDR5-6000 veya üzeri hızlarda RAM, CPU ile GPU arasındaki veri transferini hızlandırır.

Sonuç: Doğru Soruyu Sormak

“CPU mu GPU mu daha önemli?” sorusuna dürüst cevap şudur: Yapay zeka için GPU, genel sistem sağlığı için CPU önemlidir. İkisi birbirini tamamlar.

2026’da yerel AI için donanım seçimi yaparken öncelik sıralamanız şöyle olmalı:

VRAM miktarı, çalıştırabileceğiniz modelin tavanını belirler
GPU nesli ve Tensor çekirdekleri, aynı VRAM’de daha hızlı inference
CPU çekirdek sayısı ve hızı, GPU darboğazını önler
Sistem RAM, GPU’ya taşmalar ve genel sistem performansı için
Depolama hızı, model yükleme süreleri için (NVMe Gen4+)

Hangi segmentte olursanız olun, derin öğrenme modellerini yerel olarak çalıştırmak artık her zamankinden daha erişilebilir. Sözlüğümüzde algoritma, LLM ve makine öğrenimi gibi kavramları inceleyerek bu donanımlar üzerinde çalışan modellerin arka planını da öğrenebilirsiniz.

Hangi donanımı kullanıyorsunuz ya da hangi segmentte sistem topluyorsunuz? Aklınızdaki soruları yorumlarda paylaşın!

Yapay Zeka İçin Donanım Rehberi: İşlemci mi, Ekran Kartı mı Daha Önemli?