InfiniBand (Yüksek Hızlı AI Ağ Protokolü)

Yüksek performanslı bilişim ve AI eğitim kümelerinde GPU'lar arası iletişimi sağlayan çok düşük gecikmeli yüksek hızlı ağ protokolü.

InfiniBand, sunucular, GPU kümeleri ve depolama sistemleri arasında yüksek bant genişliği ve son derece düşük gecikme süresi sağlayan bir ağ iletişim standardı ve protokolüdür. 1999 yılında geliştirilmiş olan InfiniBand, özellikle yüksek performanslı bilişim (HPC) ve büyük ölçekli yapay zeka eğitim altyapılarında kritik bir bileşen olarak kullanılmaktadır. NVIDIA'nın satın aldığı Mellanox tarafından geliştirilen bu teknoloji, günümüzdeki en büyük AI süperbilgisayarlarının temel ağ altyapısını oluşturmaktadır.

Temel Teknik Özellikler

InfiniBand'in en önemli özelliklerinden biri RDMA (Remote Direct Memory Access — Uzaktan Doğrudan Bellek Erişimi) desteğidir; bu sayede bir sunucu, diğerinin belleğine CPU müdahalesi olmaksızın doğrudan erişebilir. Bu, hem gecikmeyi hem de CPU yükünü önemli ölçüde azaltır. Güncel nesiller şunlardır: HDR (High Data Rate) 200 Gb/s, NDR (Next Data Rate) 400 Gb/s ve XDR (Extended Data Rate) 800 Gb/s. Gecikme süreleri mikrosaniyenin altına inerek, binlerce GPU'nun sanki tek bir sistem gibi çalışmasına olanak tanır.

AI Eğitimindeki Rolü

Büyük dil modellerinin (LLM) ve diğer derin öğrenme modellerinin eğitimi, binlerce GPU arasında sürekli gradient senkronizasyonu gerektirir. InfiniBand, bu iletişimi geleneksel Ethernet'e kıyasla çok daha hızlı ve verimli şekilde gerçekleştirir. NVIDIA'nın NCCL (NVIDIA Collective Communications Library) kütüphanesi InfiniBand'i birincil taşıma katmanı olarak destekler. Meta'nın AI Research SuperCluster (RSC), NVIDIA DGX SuperPOD ve büyük bulut sağlayıcılarının AI örnekleri bu teknolojiyi kullanmaktadır.

Ethernet ile Karşılaştırma

Klasik Ethernet AI kümeleri için kullanılabilse de InfiniBand, özellikle yoğun iletişim gerektiren iş yüklerinde belirgin avantajlar sunar: daha düşük CPU yükü (kernel bypass), deterministik gecikme süreleri ve sıfır kopya veri transferi. RoCE (RDMA over Converged Ethernet) teknolojisi, Ethernet üzerinde RDMA kabiliyeti kazandırarak bazı bulut ortamlarında daha uygun maliyetli bir alternatif sunar. Bununla birlikte, büyük ölçekli AI kümelerinde InfiniBand öngörülebilir performansı nedeniyle tercih edilen çözüm olmaya devam etmektedir.