tag GPU
AI Hızlandırıcı (Yapay Zeka Hızlandırıcısı)
Bu sayfada GPU (AI Hızlandırıcı (Yapay Zeka Hızlandırıcısı)) etiketi ile işaretlenmiş 13 yapay zeka kavramını bulabilirsiniz.
AI Hızlandırıcı (İng. AI Accelerator), derin öğrenme ve makine öğrenimi iş yüklerini geleneksel merkezi işlem birimlerine (CPU) kıyasla çok daha verimli ve hızlı işlemek amacıyla geliştirilmiş özel amaçlı donanım birimleridir. Yapay zeka modellerinin eğitim ve çıkarım (inference) aşamalarında milyarlarca matris çarpımı, vektör toplama ve aktivasyon fonksiyonu hesabı gerçekleştirilir; bu işlemler genel amaçlı CPU mimarilerinde ciddi darboğazlar oluşturur. AI hızlandırıcılar, sinir ağı operasyonlarına doğrudan optimize edilmiş paralel işlem birimleri ve özel bellek mimarileriyle bu sorunu çözer. Bu alanda en yaygın kullanılan türler şunlardır: GPU (Grafik İşlem Birimi) — binlerce küçük çekirdeğiyle yüksek paralel işlem kapasitesi sunan ilk popüler AI hızlandırıcı; TPU (Tensör İşlem Birimi) — Google'ın TensorFlow iş yükleri için geliştirdiği özel ASIC; NPU (Sinirsel İşlem Birimi) — akıllı telefon ve IoT cihazlarına entegre, düşük güçte çıkarım yapan çip; FPGA (Sahaya Programlanabilir Kapı Dizisi) — yeniden yapılandırılabilir mimarisiyle esnek optimizasyon imkânı sunan donanım; ASIC (Uygulamaya Özel Entegre Devre) — tek bir iş yükü için tasarlanmış, en yüksek verimlilik oranına ulaşan çip. Hızlandırıcıların performansı; saniyede gerçekleştirilebilen kayan noktalı işlem sayısı (TFLOPS), yüksek bant genişlikli bellek (HBM) kapasitesi, bellek bant genişliği ve chip-to-chip iletişim hızı (NVLink, InfiniBand) gibi metriklerle ölçülür. Enerji verimliliği FLOPS/Watt biriminde ifade edilir ve veri merkezi işletme maliyetlerini doğrudan etkiler. Büyük dil modelleri (LLM) trilyonlarca parametreye ulaştıkça yüzlerce ila binlerce hızlandırıcının NVLink veya InfiniBand ile birbirine bağlandığı kümeler (accelerator clusters) ortaya çıkmıştır. NVIDIA H100/H200 Hopper ve Blackwell serileri, Google Trillium (TPU v6), AWS Trainium2 ve Groq LPU günümüz yapay zeka altyapısının bel kemiğini oluşturmaktadır. Öte yandan uç yapay zeka (edge AI) alanında NPU'lar akıllı telefon, güvenlik kamerası ve araç içi sistemlere gömülerek bulut bağlantısı gerektirmeden gerçek zamanlı çıkarım yapabilmektedir. Bu iki eğilim — bulut kümelerindeki devasa ölçek ve uçtaki düşük güçlü çıkarım — modern AI hızlandırıcı ekosisteminin iki kutbunu tanımlamaktadır.
AI Hızlandırıcı (Yapay Zeka Hızlandırıcısı)
AI Hızlandırıcı (İng. AI Accelerator), derin öğrenme ve makine öğrenimi iş yüklerini geleneksel merkezi işlem birimlerine (CPU) kıyasla çok daha verimli ve hızlı işlemek amacıyla geliştirilmiş özel amaçlı donanım birimleridir. Yapay zeka modellerinin eğitim ve çıkarım (inference) aşamalarında milyarlarca matris çarpımı, vektör toplama ve aktivasyon fonksiyonu hesabı gerçekleştirilir; bu işlemler genel amaçlı CPU mimarilerinde ciddi darboğazlar oluşturur. AI hızlandırıcılar, sinir ağı operasyonlarına doğrudan optimize edilmiş paralel işlem birimleri ve özel bellek mimarileriyle bu sorunu çözer. Bu alanda en yaygın kullanılan türler şunlardır: GPU (Grafik İşlem Birimi) — binlerce küçük çekirdeğiyle yüksek paralel işlem kapasitesi sunan ilk popüler AI hızlandırıcı; TPU (Tensör İşlem Birimi) — Google'ın TensorFlow iş yükleri için geliştirdiği özel ASIC; NPU (Sinirsel İşlem Birimi) — akıllı telefon ve IoT cihazlarına entegre, düşük güçte çıkarım yapan çip; FPGA (Sahaya Programlanabilir Kapı Dizisi) — yeniden yapılandırılabilir mimarisiyle esnek optimizasyon imkânı sunan donanım; ASIC (Uygulamaya Özel Entegre Devre) — tek bir iş yükü için tasarlanmış, en yüksek verimlilik oranına ulaşan çip. Hızlandırıcıların performansı; saniyede gerçekleştirilebilen kayan noktalı işlem sayısı (TFLOPS), yüksek bant genişlikli bellek (HBM) kapasitesi, bellek bant genişliği ve chip-to-chip iletişim hızı (NVLink, InfiniBand) gibi metriklerle ölçülür. Enerji verimliliği FLOPS/Watt biriminde ifade edilir ve veri merkezi işletme maliyetlerini doğrudan etkiler. Büyük dil modelleri (LLM) trilyonlarca parametreye ulaştıkça yüzlerce ila binlerce hızlandırıcının NVLink veya InfiniBand ile birbirine bağlandığı kümeler (accelerator clusters) ortaya çıkmıştır. NVIDIA H100/H200 Hopper ve Blackwell serileri, Google Trillium (TPU v6), AWS Trainium2 ve Groq LPU günümüz yapay zeka altyapısının bel kemiğini oluşturmaktadır. Öte yandan uç yapay zeka (edge AI) alanında NPU'lar akıllı telefon, güvenlik kamerası ve araç içi sistemlere gömülerek bulut bağlantısı gerektirmeden gerçek zamanlı çıkarım yapabilmektedir. Bu iki eğilim — bulut kümelerindeki devasa ölçek ve uçtaki düşük güçlü çıkarım — modern AI hızlandırıcı ekosisteminin iki kutbunu tanımlamaktadır.
Continuous Batching (Sürekli Toplu İşlem)
Continuous Batching (Sürekli Toplu İşlem), LLM çıkarım sunucularında gelen istekleri statik batch'ler yerine sürekli, iterasyon bazlı dinamik gruplar hâlinde işleyen bir zamanlama tekniğidir. Geleneksel statik batching'de tüm istekler aynı uzunluğa tamamlanana kadar GPU boşta bekler; bu GPU kullanımını düşürür. Continuous batching ise her decoding adımında yeni isteklerin batch'e eklenmesine ve tamamlananların batch'ten çıkarılmasına olanak tanır. 2023'te vLLM'nin PagedAttention ile birlikte bu tekniği popülerleştirmesiyle LLM servis verimliliği dramatik biçimde arttı. Continuous batching sayesinde GPU, kısa isteklerin bitimini beklemek yerine sürekli aktif kalır; bu da throughput'u (saniyede işlenen token) 10-20× iyileştirir. Değişken uzunluktaki isteklerin yoğun olduğu üretim ortamlarında bu kazanım kritik önem taşır. Teknik açıdan continuous batching; ön-doldurma (prefill) ve kod-çözme (decode) aşamalarının ayrılması, iterasyon düzeyinde zamanlama, KV cache yönetimi ve öncelik kuyrukları bileşenlerine dayanır. vLLM, TensorRT-LLM, SGLang ve TGI (Text Generation Inference) bu tekniği üretime hazır şekilde destekler. Özellikle çoklu kullanıcı API servislerinde sabit GPU kapasitesiyle daha yüksek istek kapasitesi sunabilmek için vazgeçilmez hâle gelmiştir.
CUDA (Compute Unified Device Architecture)
CUDA (Compute Unified Device Architecture), NVIDIA tarafından 2006 yılında geliştirilen ve GPU'ları genel amaçlı hesaplama (GPGPU) için kullanmayı mümkün kılan paralel hesaplama platformu ve programlama modelidir. Grafik işleme birimlerinin binlerce çekirdeğini eş zamanlı olarak çalıştırma kapasitesini yapay zeka ve bilimsel hesaplamalar için açan bu teknoloji, modern derin öğrenmenin temel altyapısını oluşturmaktadır. CUDA, geleneksel CPU programlamadan temel bir paradigma değişikliği sunar. CPU'lar güçlü ancak sınırlı sayıda çekirdekle sıralı işlemler için optimize edilmişken; NVIDIA GPU'ları onlarca binden yüz binlerce CUDA çekirdeğiyle aynı anda binlerce işlem gerçekleştirebilir. Bu eşzamanlılık, matris çarpımı, konvolüsyon ve gradyan hesaplama gibi derin öğrenme operasyonlarını CPU'ya kıyasla 10–100 kat hızlandırır. CUDA'nın iş parçacığı hiyerarşisi üç katmandan oluşur: Temel birim olan iş parçacıkları (threads), bu iş parçacıklarını gruplandıran bloklar (blocks) ve blokları organize eden ızgaralar (grids). Bir CUDA çekirdeği (kernel) çağrıldığında GPU'da binlerce iş parçacığı eş zamanlı olarak çalışır; her blok içindeki iş parçacıkları paylaşılan belleği (shared memory) kullanarak birbirleriyle iletişim kurabilir. CUDA Toolkit, geliştiricilere nvcc derleyicisi, cuBLAS (lineer cebir), cuDNN (derin sinir ağları), cuFFT (Fourier dönüşümü) ve NCCL (çoklu GPU iletişimi) gibi optimize kütüphaneler sunar. PyTorch ve TensorFlow gibi modern derin öğrenme çerçeveleri arka planda CUDA üzerinde çalışır; bu sayede araştırmacılar düşük seviyeli GPU programlamasına girmeden yüksek performanslı model eğitimi gerçekleştirebilir. Günümüzde NVIDIA H100 gibi en gelişmiş veri merkezi GPU'ları 16.896 CUDA çekirdeğine sahipken; bu çekirdeklere ek olarak Tensor Core adı verilen özel matris işlem birimleri de bulunur. Tensor Core'lar karışık hassasiyetli (FP16/BF16/INT8) matris çarpımlarını CUDA çekirdeklerine göre 4–16 kat daha hızlı gerçekleştirir ve büyük dil modellerinin eğitiminde kritik öneme sahiptir.
Deep Learning (Derin Öğrenme)
Derin Öğrenme (Deep Learning), insan beyninin çalışma prensibinden ilham alınarak geliştirilen yapay sinir ağlarını kullanarak çok katmanlı soyutlamalarla veriyi modelleyen makine öğrenmesi alt dalıdır. Geoffrey Hinton, Yann LeCun ve Yoshua Bengio gibi öncülerin çalışmalarıyla şekillenen bu alan, 2012 yılında ImageNet yarışmasında AlexNet'in gösterdiği çığır açan başarıyla ana akım haline gelmiştir. Günümüzde GPT, DALL-E, AlphaFold gibi devrim niteliğindeki modellerin temelini oluşturmaktadır.
Flash Attention (Flash Attention)
Flash Attention, Tri Dao ve ekibi tarafından geliştirilen ve standart dikkat (attention) hesaplamasının bellek erişim verimliliğini dramatik biçimde artıran bir algoritma ailesidir. Orijinal dikkat mekanizması O(n²) bellek kullanımıyla GPU HBM'e (yüksek bant genişlikli bellek) çok sayıda yazma/okuma yapar. Flash Attention, dikkat matrisini blok blok hesaplayarak bu hesaplamayı GPU'nun hızlı SRAM'inde tamamlar; HBM erişimini 5-20× azaltır. Sonuç olarak aynı hesaplama doğruluğunda belirgin hız artışı ve daha uzun bağlam penceresi desteği sağlanır.
Float16 / BFloat16 (Float16 / BFloat16)
Float16 (FP16) ve BFloat16 (BF16), derin öğrenme modellerinde ağırlıkları ve aktivasyonları depolamak için kullanılan 16-bit kayan noktalı sayı formatlarıdır. 32-bit (FP32) formata kıyasla bellek tüketimini ve hesaplama süresini yarıya indirirken makul doğruluk sağlar.
InfiniBand (Yüksek Hızlı AI Ağ Protokolü)
InfiniBand, sunucular, GPU kümeleri ve depolama sistemleri arasında yüksek bant genişliği ve son derece düşük gecikme süresi sağlayan bir ağ iletişim standardı ve protokolüdür. 1999 yılında geliştirilmiş olan InfiniBand, özellikle yüksek performanslı bilişim (HPC) ve büyük ölçekli yapay zeka eğitim altyapılarında kritik bir bileşen olarak kullanılmaktadır. NVIDIA'nın satın aldığı Mellanox tarafından geliştirilen bu teknoloji, günümüzdeki en büyük AI süperbilgisayarlarının temel ağ altyapısını oluşturmaktadır.
NVLink (GPU Ara Bağlantısı)
NVLink, NVIDIA'nın geliştirdiği yüksek bant genişlikli, düşük gecikmeli GPU-GPU ara bağlantı teknolojisidir. Geleneksel PCIe (Peripheral Component Interconnect Express) mimarisinin getirdiği darboğazları aşmak amacıyla tasarlanan NVLink, birden fazla GPU'nun doğrudan birbirine bağlanmasını ve veri paylaşmasını sağlar. Bu sayede büyük dil modellerinin (LLM) ve derin öğrenme modellerinin eğitiminde kritik rol oynayan çok-GPU sistemlerinde, işlemciler arasındaki veri aktarım hızı dramatik biçimde artırılır. NVLink, 2016 yılında Pascal mimarisini kullanan P100 GPU'larla birlikte ilk kez duyuruldu ve 160 GB/s toplam bant genişliği sundu. Sonraki Volta nesliyle (V100) 300 GB/s'ye yükselen bu değer, Ampere (A100) ile 600 GB/s, Hopper (H100/H200) ile 900 GB/s ve en güncel Blackwell (GB200) mimarisinde 1,8 TB/s'ye ulaştı. Karşılaştırma açısından PCIe 5.0 x16, yaklaşık 128 GB/s bant genişliği sunarken NVLink 5.0 bu değerin yaklaşık 14 katı kapasiteye sahiptir. İkiden fazla GPU'yu birbirine bağlamak için NVIDIA NVSwitch adlı özel anahtar yonca tasarladı. NVSwitch, tüm GPU'ların birbirine tam ağ (all-to-all) topolojisinde bağlanmasını sağlayarak DGX ve HGX sunucu sistemlerinde 8 GPU'yu tek bir sanal GPU gibi kullanmaya imkân tanır. Bu mimari, tensor paralelliği ve pipeline paralelliği gibi dağıtık eğitim yöntemlerinin verimini büyük ölçüde artırır. Yapay zeka alanında NVLink'in önemi giderek büyümektedir. GPT-4, Llama ve benzeri devasa modellerin eğitiminde gradient senkronizasyonu için gereken veri aktarımı PCIe'nin kapasitesini kolaylıkla aşmaktadır. NVLink, bu senkronizasyon adımlarını saniyeler yerine milisaniyeler içinde tamamlayarak GPU'ların boşta bekleme süresini minimize eder ve eğitim verimliliğini katlar.
Tensor Core (Tensor Çekirdeği)
Tensor Core, NVIDIA tarafından 2017 yılında Volta mimarisinde (V100) tanıtılan ve sonraki GPU nesillerinde (Turing, Ampere, Hopper, Ada Lovelace) kapsamlı biçimde geliştirilen özel donanım birimleridir. Bu birimler, derin öğrenme modellerinin eğitimi ve çıkarımı sırasında merkezi bir rol oynayan matris çarpma-biriktirme (Matrix Multiply-Accumulate, MMA: D = A × B + C) operasyonlarını son derece verimli biçimde gerçekleştirmek amacıyla tasarlanmıştır. Klasik CUDA çekirdekleri genel amaçlı skaler ve vektör işlemler için tasarlanmışken, Tensor Core'lar tek bir saat döngüsünde 4×4 matris boyutunda çarpma ve biriktirme yapabilir. Bu yapı, yapay sinir ağlarının ileri ve geri yayılım hesaplamalarında kullanılan devasa matris çarpmalarını dramatik biçimde hızlandırır. Bir warp (32 iş parçacığı), wmma (warp-level matrix multiply-accumulate) API'si aracılığıyla 16×16 boyutundaki matrisleri Tensor Core bloklarında işler; bu paralel mod, FP32 CUDA çekirdeklerine kıyasla teorik tepe performansını yaklaşık bir ordem büyüklüğünde artırır. Tensor Core'ların en kritik özelliği karma hassasiyet hesaplamayı (mixed-precision) desteklemeleridir: çarpma işlemleri FP16 ya da BF16 gibi daha kısa bitli formatlarda gerçekleştirilir, biriktirme ise FP32 ile yapılır. Bu tasarım sayesinde bellek bant genişliği kullanımı yarıya iner ve eğitim hızı önemli ölçüde artar; model doğruluğu ise büyük ölçüde korunur. Nesil bazında gelişime bakıldığında: Volta'da FP16 desteğiyle başlayan Tensor Core'lar Turing'de INT8 ve INT4 desteği kazandı, Ampere (A100) ile TF32 ve BF16 ve yapısal seyreklik (structured sparsity) desteği eklendi, Hopper (H100) ile FP8 desteği ve Transformer Engine entegrasyonu getirilerek A100'e kıyasla yaklaşık 6 kat daha yüksek verim elde edildi. PyTorch'ta torch.cuda.amp.autocast(), TensorFlow'da tf.keras.mixed_precision aracılığıyla bu donanım şeffaf biçimde kullanılır.
vLLM (vLLM)
vLLM, UC Berkeley'de geliştirilen ve LLM çıkarımında yüksek throughput ile bellek verimliliği sağlayan açık kaynaklı bir servis kütüphanesidir. Temel yeniliği PagedAttention, KV cache'i işletim sistemi sanal bellek yönetiminden ilham alarak idare eder; continuous batching ile birlikte standart HuggingFace Transformers'a kıyasla 24× daha yüksek throughput sağlayabilir.
VRAM (GPU Belleği)
VRAM (Video RAM — Video Rastgele Erişim Belleği), GPU'nun (Grafik İşlemci Birimi) üzerindeki yüksek bant genişlikli bellek havuzudur. Yapay zeka modellerinin ağırlıkları, aktivasyonları ve hesaplama ara değerleri GPU çekirdeğine yakın konumda tutulur; bu sayede veri transferinin yavaşlatacağı darboğazlar önlenir.
Wafer Nedir? Yapay Zeka Çiplerinin Hammaddesi (Silikon Vaferi)
Silikon vafer (wafer), yarı iletken çip üretiminin temelini oluşturan, yüksek saflıkta silikon kristalinden kesilmiş ince ve yuvarlak disk biçimindeki levhadır. GPU, TPU, NPU ve ASIC gibi yapay zeka ivedileyicilerinin tamamı bu diskler üzerine foto-litografi, oyma, kaplama ve diğer kimyasal işlemler uygulanarak üretilir. Tek bir wafer üzerinde aynı anda yüzlerden binlerce özdeş çip (die) üretilebilir; bu da büyük ölçekli seri üretimi ve düşük birim maliyeti mümkün kılar. Endüstri standardı wafer çapı günümüzde 300 mm (12 inç) düzeyindedir. NVIDIA H100, Google TPU v5 ve Apple M serisi gibi günümüz AI çiplerinin tamamı bu boyuttaki wafer'lar üzerinde TSMC, Samsung veya Intel Foundry gibi fabrikasyon tesislerinde (fab) üretilmektedir. Wafer verimi (yield), üretim kalitesini ve doğrudan çip maliyetini belirleyen kritik performans göstergesidir.
WebGPU (WebGPU)
WebGPU, modern GPU'ların hesaplama ve grafik yeteneklerini tarayıcı içinden doğrudan kullanmayı sağlayan W3C tarafından standartlaştırılan yeni nesil Web API'sidir. WebGL'in sınırlarını aşarak derin öğrenme çıkarımı, grafik yoğun uygulamalar ve genel amaçlı GPU hesaplamayı (GPGPU) web ortamında mümkün kılar.