tag LLM inference
In-Memory Computing Nedir? Bellek-İçi AI Hesaplama (Bellek-İçi Hesaplama)
Bu sayfada LLM inference (In-Memory Computing Nedir? Bellek-İçi AI Hesaplama (Bellek-İçi Hesaplama)) etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.
In-Memory Computing (Bellek-İçi Hesaplama), verilerin geleneksel disk tabanlı depolama yerine doğrudan RAM veya yüksek bant genişlikli bellek (HBM) üzerinde işlenmesi paradigmasıdır. Geleneksel mimaride CPU veya GPU, hesaplama yaparken model ağırlıklarını ve aktivasyonları bellekten defalarca okumak zorundadır; bu veri transferi, özellikle büyük dil modellerinin (LLM) çıkarım aşamasında ciddi bir darboğaz oluşturur. İşlemcinin bekleyerek geçirdiği bu süre, toplam çıkarım gecikmesinin büyük bölümünü oluşturur. Processing-in-Memory (PIM) ya da Near-Memory Computing olarak da bilinen bu yaklaşımda, hesaplama mantığı doğrudan bellek çipleri içine entegre edilir. Böylece veri işlemciye taşınmak yerine, işlemci verinin bulunduğu yerde çalışır. Bir LPDDR5 DRAM çipinin harici G/Ç bant genişliği yaklaşık 51,2 GB/s ile sınırlıyken, dahili all-bank bant genişliği 409,6 GB/s'ye ulaşabilir; bu yaklaşık 8 katlık artış, verinin yanında hesaplama yapmanın sağladığı temel avantajdır. Samsung (AxDIMM/HBM-PIM), SK Hynix (AiM — Accelerator-in-Memory) ve UPmem gibi şirketler, AI iş yüklerine özgü ticari PIM çözümleri geliştirmektedir. GPU+HBM-PIM entegrasyonu, yalnızca GPU mimarisine kıyasla LLM çıkarımında 3,24 kat hızlanma ve yüzde 60 enerji tasarrufu sağlayabilmektedir. Transformer mimarilerindeki matris-vektör çarpımı (GEMV) ve dikkat mekanizmaları, hesaplama kapasitesinden çok bellek bant genişliğine duyarlıdır; bu nedenle bellek-içi hesaplama bir sonraki nesil AI donanımının temel bileşeni olmaya adaydır. Edge AI cihazlarında ise RISC-V tabanlı PIM modülleri, nöral ağ çıkarımını düşük güç bütçesiyle gerçekleştirmeyi mümkün kılar.