AI Hızlandırıcı Nedir? GPU, TPU, NPU ve ASIC Karşılaştırması

AI Hızlandırıcı Neden Gereklidir?

Modern yapay zeka modellerinin temeli, milyarlarca ağırlık parametresi üzerinde gerçekleştirilen devasa matris çarpımı işlemlerine dayanır. GPT-4, Gemini ve Claude gibi büyük dil modelleri tek bir ileri geçişte (forward pass) trilyon düzeyinde çarpma-toplama işlemi (MACC) yapar. Standart bir CPU, sıralı mantık mimarisi ve sınırlı çekirdek sayısı nedeniyle bu iş yükünü verimli şekilde karşılayamaz. AI hızlandırıcılar iki temel avantaj sunar: (1) Binlerce ila on binlerce küçük çekirdeği aynı anda çalıştıran yüksek paralellik, (2) matris işlemlerine özel aritmetik devre blokları (Tensor Core, Systolic Array gibi yapılar). Bu sayede hem eğitim süresi dramatik biçimde kısalır hem de çıkarım gecikme süresi (latency) ve enerji tüketimi düşer.

Başlıca AI Hızlandırıcı Türleri

GPU

Grafik İşlem Birimi. Paralel çekirdek mimarisi (CUDA, ROCm) ile eğitim ve çıkarımda en yaygın kullanılan hızlandırıcı. NVIDIA H100/H200, AMD MI300X lider ürünler.

TPU

Tensör İşlem Birimi. Google'ın TensorFlow iş yükleri için tasarladığı ASIC. Trillium (v6) nesli chip başına önceki nesle göre 4,7× performans artışı sunar.

NPU

Sinirsel İşlem Birimi. Akıllı telefon, PC ve IoT cihazlarına gömülü, düşük güçte çıkarım odaklı çip. Apple Neural Engine, Qualcomm Hexagon ve Intel NPU örneklerdir.

ASIC

Uygulamaya Özel Entegre Devre. Tek bir iş yükü için uçtan uca optimize edilen çip. Groq LPU (düşük latency çıkarım), Cerebras WSE (tek çip büyük model eğitimi) öne çıkar.

FPGA

Sahaya Programlanabilir Kapı Dizisi. Yeniden yapılandırılabilir mimarisi sayesinde model değişikliklerinde esnek optimizasyon imkânı sunar; düşük seri hacimli uç AI'da kullanılır.

Performans Karşılaştırma Kriterleri

check_circle FLOPS / TFLOPS: Saniyede gerçekleştirilen kayan noktalı işlem sayısı. float16 veya bfloat16 formatındaki TFLOPS değeri, modeli eğitme veya çıkarım yapma hızını belirler.
check_circle HBM Kapasitesi ve Bant Genişliği: Yüksek Bant Genişlikli Bellek (HBM), modelin tüm ağırlıklarını GPU/TPU'da tutmak için kritik. H200'ün 141 GB HBM3e'si 4,8 TB/s bant genişliği sunar.
check_circle FLOPS / Watt (Enerji Verimliliği): Birim güçte gerçekleştirilen işlem sayısı. Veri merkezlerinde soğutma ve elektrik maliyetini doğrudan etkiler; edge cihazlarda pil ömrünü belirler.
check_circle Chip-to-Chip Bant Genişliği: NVLink veya InfiniBand bağlantı hızı. Çok-GPU kümelerinde gradient senkronizasyonu ve tensör paralelliği için kritik; darboğaz olursa eğitim verimi düşer.
check_circle Gecikme Süresi (Latency): Tek bir istek için uçtan uca yanıt süresi. Gerçek zamanlı çıkarım gerektiren uygulamalarda (chatbot, ses tanıma) milisaniye düzeyi kritik önem taşır.

Öne Çıkan AI Hızlandırıcılar (2024–2026)

check_circle NVIDIA H100 / H200 / Blackwell B200: LLM eğitimi ve çıkarımında fiili standart. H200, 141 GB HBM3e ile 80 GB HBM2e'li H100'e göre çıkarım hızını iki katına çıkarır. B200 ise 4,5× daha fazla bfloat16 FLOPS sunar.
check_circle Google Trillium (TPU v6): Google Cloud'un Gemini modelleri için kullandığı 6. nesil TPU. Çip başına önceki nesle göre 4,7× performans artışı; pod konfigürasyonunda birden fazla kiloçip ölçek sunar.
check_circle AWS Trainium2 / Inferentia2: Amazon'un kendi geliştirdiği eğitim (Trainium) ve çıkarım (Inferentia) ASIC'leri. Trainium2 ultra-server'larda 83,2 petaflops ve 1,6 TB/s toplam bellek bant genişliği sağlar.
check_circle Groq LPU: Dil İşleme Birimi (Language Processing Unit). Deterministik yürütme mimarisiyle token başına gecikmeyi minimuma indiriyor; çıkarımda GPU'ya kıyasla çok daha düşük latency sunar.
check_circle Cerebras WSE-3: Tek çip üzerinde 4 trilyon transistör ve 900.000 AI çekirdeği barındıran wafer ölçekli çip. Büyük modelleri model paralelliğine gerek duymadan tek bir chip'te eğitebilmektedir.

Sık Sorulan Sorular

check_circle AI eğitimi için GPU mu, TPU mu kullanmalıyım?: PyTorch kullanıyorsanız ve esneklik ön planda ise GPU tercih edilir; TensorFlow/JAX ile Google Cloud'da çalışıyorsanız TPU daha maliyet etkin olabilir. Pratikte çoğu açık kaynak model GPU için optimize edilmiştir.
check_circle NPU ile GPU arasındaki temel fark nedir?: GPU'lar yüksek ham paralel işlem gücü sunar ve hem eğitim hem çıkarım için uygundur; NPU'lar ise daha küçük, düşük güçlü ve tek çip (SoC) içine entegre edilmiş çıkarım odaklı birimlerdir. Akıllı telefonunuzdaki on-device AI NPU üzerinden çalışır.
check_circle Tek GPU yetmez mi, neden küme gerekiyor?: GPT-3 ölçeği (175B parametre) bile tek bir GPU'nun HBM kapasitesini aşar. Milyarlarca parametreli modeller tensör ve boru hattı paralelliği ile birden fazla hızlandırıcıya bölünür; NVLink/InfiniBand bu parçalar arasındaki iletişimi sağlar.
check_circle Edge AI için hangi hızlandırıcı uygundur?: Düşük güç ve küçük form faktörü gerektiren uç uygulamalarda NPU'lar (Qualcomm Hexagon, Apple Neural Engine), küçük ASIC'ler ve düşük güçlü FPGA'lar tercih edilir. Gecikme ve gizlilik avantajı sunar.
check_circle AI hızlandırıcı maliyeti nasıl değerlendirilir?: Ham FLOPS'tan ziyade dolar başına FLOPS ve saat başına iş hacmi (throughput/$/saat) karşılaştırılır. Bulut sağlayıcılarında spot veya rezerve fiyatlandırması toplam maliyeti %50–70 düşürebilir.