Bellek Duvarı Problemi
Modern AI sistemlerinde en büyük performans engellerinden biri 'bellek duvarı' (memory wall) olarak adlandırılan sorundur. GPU veya TPU gibi işlemciler, hesaplama yaparken her adımda model ağırlıklarını ve aktivasyonları bellekten okumak zorundadır. Bu transfer işlemi, özellikle büyük dil modellerinin token üretiminde kritik bir darboğaz oluşturur; çünkü her bellek erişimi başına yapılan hesaplama sayısı (aritmetik yoğunluk) son derece düşüktür. Bir LPDDR5 DRAM çipinin harici G/Ç bant genişliği yaklaşık 51,2 GB/s ile sınırlıdır. Aynı çipin dahili all-bank bant genişliği ise 409,6 GB/s'ye ulaşabilir. Bu 8 katlık fark, hesaplamayı verinin yanına taşımanın ne denli avantajlı olduğunu ortaya koyar. In-Memory Computing paradigması tam da bu noktada devreye girer: işleme mantığını bellek modüllerine entegre ederek veri transferini minimuma indirir.
PIM Mimarisinin İşleyişi
Processing-in-Memory (PIM) ya da Near-Memory Computing olarak da bilinen yaklaşımda, basit hesaplama birimleri (çarpma-toplama devreleri veya RISC-V tabanlı mikro işlemciler) doğrudan DRAM veya HBM yığın belleği içine yerleştirilir. Veri bu birimlere taşınmak yerine, birimler verinin bulunduğu yerde çalışır. İki temel mimari yaklaşım öne çıkmaktadır: PIM'de (Processing-In-Memory) hesaplama mantığı DRAM hücreleriyle aynı yarı iletken üzerindedir ve son derece düşük gecikme süresi sağlar; PNM'de (Processing-Near-Memory) ise hesaplama çipleri belleğe yakın ama ayrı bir katmanda yer alır, bu da daha esnek tasarıma olanak tanır. Samsung'un AxDIMM/HBM-PIM çözümü HBM2E tabanlı GEMV ve embedding işlemlerine optimize edilmiştir. SK Hynix'in AiM (Accelerator-in-Memory) çözümü GDDR6 ile entegre çalışır. Fransız şirketi UPmem'in DIMM modülünde ise her chip üzerinde 8 PIM çekirdeği bulunur ve tek modülde 2.500'ün üzerinde paralel işlem birimi sağlanır.
LLM ve AI Çıkarımındaki Rolü
Transformer tabanlı modellerde dikkat mekanizmaları ve matris-vektör çarpımı (GEMV), hesaplama kapasitesinden çok bellek bant genişliğine bağımlıdır. LLM token üretiminde model ağırlıkları (milyarlarca parametre) her adımda yeniden okunur; bu nedenle bant genişliği, saniyede üretilen token sayısını doğrudan belirler. GPU+HBM-PIM entegrasyonu, yalnızca GPU mimarisine kıyasla LLM çıkarımında 3,24 kat hızlanma ve yüzde 60 enerji tasarrufu sağlayabildiğini deneysel çalışmalar ortaya koymuştur. IANUS (NPU-PIM Unified Memory System) gibi birleşik mimariler ise NPU ve PIM bileşenlerini aynı bellek alanında birleştirerek mobil LLM çıkarımında hem hız hem de enerji verimliliği açısından önemli kazanımlar elde etmektedir. Edge AI ortamlarında RISC-V tabanlı PIM modülleri, nöral ağ çıkarımını watt-altı güç bütçesiyle gerçekleştirmeye olanak tanır. Bu sayede IoT sensörlerinde, akıllı kameralarda ve giyilebilir cihazlarda bulut bağlantısı olmaksızın yerel AI işlemesi mümkün hale gelir.
Öncü Çözümler ve Uygulamalar
- check_circle Samsung AxDIMM / HBM-PIM: HBM2E tabanlı; GEMV ve embedding sorgularına optimize edilmiş veri merkezi çözümü
- check_circle SK Hynix AiM (Accelerator-in-Memory): GDDR6 ile entegre; grafik ve AI iş yüklerinde dahili hesaplama desteği sunar
- check_circle UPmem UPMEM-DIMM: DDR4 form faktöründe; her modülde 2.500+ paralel PIM çekirdeği, genomik ve makine öğrenmesi uygulamaları
- check_circle IANUS NPU-PIM Unified System: NPU ve PIM'i birleşik bellek alanında sunan mobil mimari; LLM speculative inference optimizasyonu
- check_circle RISC-V PIM Modülleri (AI-PiM): IoT ve edge cihazlar için watt-altı güçle nöral ağ çıkarımı sağlayan açık kaynak tabanlı mimari
Sıkça Sorulan Sorular
- check_circle In-Memory Computing ile GPU kullanmak nasıl farklıdır?: GPU bellekten veri çekerek hesaplama yapar; PIM ise hesaplamayı belleğin içinde gerçekleştirerek yüksek dahili bant genişliğini kullanır ve veri transferini ortadan kaldırır. İkisi rakip değil tamamlayıcıdır: GPU+HBM-PIM kombinasyonları her iki avantajı birleştirir.
- check_circle Bu teknoloji tüm AI iş yüklerinde avantajlı mı?: Özellikle düşük aritmetik yoğunluklu işlemlerde (LLM token üretimi, embedding sorguları, GEMV) en yüksek kazanımı sağlar. Yoğun matris çarpımı gerektiren eğitim (training) gibi compute-bound iş yüklerinde avantaj daha sınırlıdır.
- check_circle Yaygın ticari kullanım ne zaman başlar?: HBM3/HBM3e ile entegre PIM çözümleri 2025-2026 yıllarında veri merkezi uygulamalarına girmeye başlamaktadır. Edge AI chip'lerinde ticari PIM ürünleri 2024-2025 itibarıyla piyasada mevcuttur.
- check_circle Geleneksel bellek hiyerarşisiyle nasıl ilişkilendirir?: In-Memory Computing, L1/L2 önbelleklerin yanına işleme kapasitesi ekler; bu sayede CPU/GPU önbelleği ile ana bellek arasındaki bant genişliği farkı ortadan kalkar ve DRAM'in tüm bant genişliği hesaplama için kullanılabilir hale gelir.