Mixture of Experts Routing Nedir? MoE Yönlendirme Mekanizması (MoE Yönlendirme)

MoE mimarisinde her tokeni en uygun uzman alt ağlara yönlendiren öğrenilebilir kapı (gate) fonksiyonu.

Mixture of Experts (MoE) routing, bir sinir ağındaki her token için hangi 'uzman' alt ağların etkinleştirileceğini belirleyen yönlendirme mekanizmasıdır. Geleneksel dense modellerde her token tüm parametrelerden geçerken, MoE mimarisinde her giriş yalnızca seçili birkaç uzmana (top-K) yönlendirilir; bu sayede toplam parametre sayısı büyük kalırken hesaplama maliyeti sabit tutulur.

MoE Routing Nedir?

Mixture of Experts (MoE) routing, büyük dil modellerinde ve diğer sinir ağlarında kullanılan bir yönlendirme mekanizmasıdır. Her transformer katmanındaki feed-forward bloğu, birden fazla 'uzman' (expert) alt ağdan oluşur; bir router (yönlendirici) ağı ise her gelen token için bu uzmanlar arasından en uygun olanları seçer. Bu seçim sürecine 'routing' adı verilir.

Gate Fonksiyonu ve Top-K Seçimi

Router genellikle bir softmax kapı fonksiyonu kullanır: her uzman için bir ağırlık hesaplar ve en yüksek ağırlıklı K uzmanı seçer (top-K seçimi). Örneğin Mixtral 8x7B 8 uzmanı olup her token için 2 uzman aktive edilir; DeepSeek-V3 ise 256 uzmanı arasından 8'ini seçer. Aktive edilmeyen uzmanlar o token için hiç hesaplama yapmaz — bu sayede milyarlarca parametreye sahip model, aslında token başına çok daha az parametre kullanır.

Yük Dengeleme (Load Balancing)

MoE routing'in temel sorunu 'router collapse'dır: router tüm tokenleri aynı 1-2 uzmana yönlendirmeye başlayabilir ve geri kalan uzmanlar boşta kalır. Bunu önlemek için eğitim sırasında yük dengeleme kaybı (auxiliary load balancing loss) eklenir; bu kayıp, uzmanların dengeli kullanılmasını teşvik eder. Google'ın Gshard ve Switch Transformer çalışmaları bu problemi ilk sistematik biçimde ele alan araştırmalardır.

Günümüz Modelleri ve Uygulamalar

MoE routing GPT-4, Mixtral 8x7B/8x22B, DeepSeek-V2/V3, Gemini 1.5 ve Grok gibi son nesil büyük dil modellerinin temel mimarisi haline gelmiştir. DeepSeek-V3'ün 256 uzman + 8 aktif tasarımı, eğitim maliyetini dramatik biçimde düşürürken GPT-4 seviyesi performans elde etmiştir. 2025 itibarıyla araştırmalar, hiyerarşik MoE, çok modlu uzman ayrımı ve uzman çeşitliğini optimize eden yeni routing stratejileri üzerine yoğunlaşmaktadır.

Avantajlar ve Dezavantajlar

Avantajlar: (1) Sabit hesaplama maliyetiyle çok daha büyük model kapasitesi; (2) Farklı uzmanlar farklı bilgi alanlarında uzmanlaşabilir; (3) Aynı FLOP bütçesiyle dense modelden üstün performans. Dezavantajlar: (1) Tüm uzmanların bellekte tutulması gerektiğinden yüksek VRAM ihtiyacı; (2) Router collapse ve yük dengesizliği riski; (3) Dağıtık sistemlerde uzman parallelizmi karmaşık iletişim gerektir.