MoE Routing Nedir?
Mixture of Experts (MoE) routing, büyük dil modellerinde ve diğer sinir ağlarında kullanılan bir yönlendirme mekanizmasıdır. Her transformer katmanındaki feed-forward bloğu, birden fazla 'uzman' (expert) alt ağdan oluşur; bir router (yönlendirici) ağı ise her gelen token için bu uzmanlar arasından en uygun olanları seçer. Bu seçim sürecine 'routing' adı verilir.
Gate Fonksiyonu ve Top-K Seçimi
Router genellikle bir softmax kapı fonksiyonu kullanır: her uzman için bir ağırlık hesaplar ve en yüksek ağırlıklı K uzmanı seçer (top-K seçimi). Örneğin Mixtral 8x7B 8 uzmanı olup her token için 2 uzman aktive edilir; DeepSeek-V3 ise 256 uzmanı arasından 8'ini seçer. Aktive edilmeyen uzmanlar o token için hiç hesaplama yapmaz — bu sayede milyarlarca parametreye sahip model, aslında token başına çok daha az parametre kullanır.
Yük Dengeleme (Load Balancing)
MoE routing'in temel sorunu 'router collapse'dır: router tüm tokenleri aynı 1-2 uzmana yönlendirmeye başlayabilir ve geri kalan uzmanlar boşta kalır. Bunu önlemek için eğitim sırasında yük dengeleme kaybı (auxiliary load balancing loss) eklenir; bu kayıp, uzmanların dengeli kullanılmasını teşvik eder. Google'ın Gshard ve Switch Transformer çalışmaları bu problemi ilk sistematik biçimde ele alan araştırmalardır.
Günümüz Modelleri ve Uygulamalar
MoE routing GPT-4, Mixtral 8x7B/8x22B, DeepSeek-V2/V3, Gemini 1.5 ve Grok gibi son nesil büyük dil modellerinin temel mimarisi haline gelmiştir. DeepSeek-V3'ün 256 uzman + 8 aktif tasarımı, eğitim maliyetini dramatik biçimde düşürürken GPT-4 seviyesi performans elde etmiştir. 2025 itibarıyla araştırmalar, hiyerarşik MoE, çok modlu uzman ayrımı ve uzman çeşitliğini optimize eden yeni routing stratejileri üzerine yoğunlaşmaktadır.
Avantajlar ve Dezavantajlar
Avantajlar: (1) Sabit hesaplama maliyetiyle çok daha büyük model kapasitesi; (2) Farklı uzmanlar farklı bilgi alanlarında uzmanlaşabilir; (3) Aynı FLOP bütçesiyle dense modelden üstün performans. Dezavantajlar: (1) Tüm uzmanların bellekte tutulması gerektiğinden yüksek VRAM ihtiyacı; (2) Router collapse ve yük dengesizliği riski; (3) Dağıtık sistemlerde uzman parallelizmi karmaşık iletişim gerektir.