Latent Diffusion Model (Gizil Uzay Difüzyon Modeli (Latent Diffusion))
Latent Diffusion Model (LDM), difüzyon işlemini piksel uzayı yerine sıkıştırılmış bir gizil (latent) uzayda gerçekleştiren verimli bir üretici yapay zeka mimarisidir. Robin Rombach ve arkadaşları tarafından 2022 yılında yayımlanan "High-Resolution Image Synthesis with Latent Diffusion Models" makalesiyle tanıtılan bu mimari, Stable Diffusion'ın temelini oluşturur.
Geleneksel piksel uzayı difüzyon modellerinde (DDPM gibi) tüm hesaplama, görüntünün tam boyutunda (örn. 512×512×3 = 786.432 boyut) yapılır. Bu son derece hesaplama yoğundur. LDM'de ise önce bir Varyasyonel Otoenkoder (VAE) görüntüyü çok daha küçük bir gizil temsile sıkıştırır (örn. 64×64×4 = 16.384 boyut); difüzyon süreci bu küçük uzayda çalışır; sonunda VAE dekoderi gizil uzay çıktısını tam boyutlu görüntüye dönüştürür.
Bu yaklaşım, hesaplama maliyetini piksel tabanlı difüzyona kıyasla yaklaşık 48 kat azaltır. Metin koşullandırması, CLIP veya OpenCLIP metin kodlayıcısından gelen vektörlerin U-Net'in cross-attention katmanlarına enjekte edilmesiyle sağlanır. Sıkıştırma ve kalite arasındaki denge, VAE'nin yeniden yapılandırma başarısına bağlıdır.