NPU Mimarisi Nedir? Sinir Ağı İşlemci Tasarımı (NPU Mimarisi)

#npu #donanim #ai-ivedilendiricisi #edge-ai #sinir-agi-isleme

NPU Mimarisi, yapay zeka hesaplamalarını hızlandırmak için optimize edilmiş sinir ağı operasyonlarına özel donanım devre tasarımıdır.

NPU mimarisi (Nöral İşlem Birimi Mimarisi), yapay zeka ve derin öğrenme iş yüklerini işlemek için CPU veya GPU'dan bağımsız olarak tasarlanmış özel bir donanım bileşenidir. CPU'ların genel amaçlı sıralı hesaplama mimarisinden ve GPU'ların büyük ölçekli paralel grafik işlem özelliğinden farklı olarak NPU'lar, sinir ağlarında en sık kullanılan matris çarpımı, konvolüsyon ve aktivasyon fonksiyonu hesaplamalarını doğrudan donanım düzeyinde gerçekleştirmek için özelleştirilmiştir. Bir NPU'nun temel yapısal bileşenleri şunlardır: çok sayıda sistematik biçimde düzenlenmiş çarpma-toplama (MAC, Multiply-Accumulate) birimi, aktivasyon fonksiyonları için tasarlanmış özel devreler, düşük bant genişliği sorununu gidermek için entegre on-chip bellek tamponları ve modelden modele değişen veri akışlarını destekleyen yeniden yapılandırılabilir veri yolları. Çoğu modern NPU ayrıca INT8, FP16 ya da BF16 gibi düşük hassasiyetli sayı formatlarını destekler; bu sayede güç tüketimini önemli ölçüde azaltırken işlem kapasitesini artırır. Kullanım senaryosu açısından NPU'lar özellikle uç cihazlarda öne çıkmaktadır. Apple'ın M4 çipindeki Neural Engine (38 TOPS), Qualcomm Snapdragon serisi Hexagon NPU'su ve Intel'in Meteor Lake serilerindeki NPU modülleri (40+ TOPS) doğrudan tüketici donanımında çalışan güçlü AI ivedilendiricilerine örnek gösterilebilir. Microsoft'un Copilot+ PC sertifikasyonu da en az 40 TOPS NPU kapasitesini zorunlu kılmaktadır. NPU mimarisi, AI iş yüklerinin giderek artan yoğunluğuna karşı güç-verimlilik (TOPS/Watt) dengesini en üst düzeye çıkarmak amacıyla tasarlanmış, modern SoC tasarımının vazgeçilmez bir bileşenidir.

NPU Nedir ve CPU/GPU'dan Farkı Nedir?

CPU (Central Processing Unit), genel amaçlı karmaşık mantık operasyonları için tasarlanmıştır; az sayıda güçlü çekirdek, yüksek saat hızı ve büyük önbellek ile çalışır. GPU (Graphics Processing Unit) ise başlangıçta grafik işlemi için geliştirilmiş olsa da büyük ölçekli paralel hesaplama yeteneğiyle AI eğitiminde standart haline gelmiştir. NPU ise bu iki mimari arasında tamamen farklı bir niş kaplar: yapay zeka inference (çıkarım) için özelleşmiş, düşük güç tüketimli bir ivedilendiricisi. Temel fark, veri akış mimarisindedir. Bir yapay zeka modelinde en kritik işlem, büyük matris çarpımı ve evrişim (konvolüsyon) operasyonlarıdır. NPU tasarımcıları bu iki işlemi on-chip doğrudan gerçekleştirecek özel devre blokları (MAC dizileri) inşa eder. Böylece bellek-işlemci arasındaki veri transferi en aza indirilir; bu da hem gecikmeyi hem de güç tüketimini önemli ölçüde azaltır.

NPU Mimarisinin Temel Bileşenleri

**MAC Dizileri (Multiply-Accumulate Arrays):** Sinir ağı hesabının özü olan w×x+b işlemini paralel gerçekleştiren özel çarpma-toplama birimleri. Binlerce MAC ünitesi aynı anda farklı matris elemanları üzerinde çalışır. **On-Chip SRAM Tamponları:** Ağırlık matrislerini ve aktivasyonları yonga üzerinde tutmak için kullanılan hızlı bellek. Harici DRAM'e erişim minimuma indirilir; bu, hem gecikmeyi hem de dinamik güç tüketimini düşürür. **Aktivasyon Motoru:** ReLU, GELU ve Sigmoid gibi aktivasyon fonksiyonlarını donanım düzeyinde hesaplayan özel devreler. **Yeniden Yapılandırılabilir Veri Yolları (Dataflow Engine):** Farklı ağ mimarileri (CNN, Transformer, RNN) birbirinden farklı hesaplama akışı gerektirir. Modern NPU'lar bu akışları yazılım düzeyinde yeniden yapılandırabilecek esnek bir veri yolu sunar. **Düşük Hassasiyetli Hesaplama Desteği:** INT4, INT8, FP16 ve BF16 gibi veri tiplerini doğal olarak destekleyen devreler. Tam FP32 yerine INT8 kullanmak, aynı TOPS bütçesiyle çok daha fazla işlem yapılmasını sağlar.

Yaygın NPU Uygulamaları ve Performans Karşılaştırması

**Apple Neural Engine:** A11 Bionic ile başlayan ve M4 çipinde 38 TOPS'a ulaşan bu NPU, iPhone ve Mac cihazlarında Siri, Face ID ve fotoğraf işleme gibi on-device AI görevleri için kullanılmaktadır. **Qualcomm Hexagon NPU:** Snapdragon 8 Gen serisi mobil işlemcilere entegre olup on-device LLM çalıştırma, gerçek zamanlı çeviri ve kamera AI yetenekleri için optimize edilmiştir. **Intel NPU (Meteor Lake / Lunar Lake):** Birleşik CPU+GPU+NPU mimarisine sahip Intel Core Ultra serisi, on-device Copilot+ özellikleri için Windows PC'lerde 40 TOPS eşiğini aşmaktadır. **Google Tensor NPU:** Pixel akıllı telefonlarında bulunan bu NPU, Google'ın kendi AI modellerini (Gemini Nano dahil) cihaz üzerinde çalıştırmasına olanak tanır. **Bağımsız NPU Hızlandırıcılar:** Veri merkezi ortamında Cambricon, Graphcore ve Groq gibi şirketler yalnızca AI inference için tasarlanmış bağımsız NPU çiplerini pazarlamaktadır.