Diffusion Models (Difüzyon Modelleri)

Difüzyon Modelleri (Diffusion Models), görüntü, video ve ses üretimi alanında devrim yaratan, Midjourney, DALL-E 3 ve Stable Diffusion gibi görsel yapay zeka araçlarının temelini oluşturan üretken (generative) yapay zeka mimarisidir.

Difüzyon Modelleri (Diffusion Models), görüntü, video ve ses üretimi alanında devrim yaratan, Midjourney, DALL-E 3 ve Stable Diffusion gibi görsel yapay zeka araçlarının temelini oluşturan üretken (generative) yapay zeka mimarisidir. Temel çalışma prensibi; net bir görüntüyü yavaş yavaş karıncalandırarak (gürültü/noise ekleyerek) yok etmeyi öğrenmek ve daha sonra bu süreci tersine çevirerek tamamen rastgele bir kumlanmadan (noise), saf ve yeni bir görüntü (veya sanat eseri) inşa etmektir.

blur_on Difüzyon Modelleri Nasıl Çalışır?

Öğrenme süreci fizikteki termodinamik difüzyon kurallarına benzer. Model iki aşamada eğitilir: Birinci adım (Forward Diffusion), gerçek bir fotoğrafın üzerine adım adım pikselsel kumlanma (Gaussian noise) eklenmesi ve resmin tamamen TV karıncalanmasına dönüştürülmesidir. İkinci adım (Reverse Diffusion), yapay sinir ağının bu karıncalanmayı temizlemeyi öğrenmesidir (Denoising). Model bu temizlemeyi yaparken, sizin yazdığınız metin (prompt) vektörlerinden yönlendirme alır ve karıncaların içinden bir kedi, bir uzay gemisi veya yağlı boya tablosu çıkarır.

Difüzyon vs GAN

balance Eğitim İstikrarı

Önceki dönemin kralı GAN'ların (Üretici Çekişmeli Ağlar) eğitimi çok zordu ve sık sık çökerdi. Difüzyon modelleri matematiksel olarak çok daha stabil eğitilebilir.

palette Çeşitlilik

Difüzyon modelleri, GAN'lara kıyasla çok daha geniş bir görsel çeşitlilik ve hayal gücü sunar. Metinle yönlendirilmeye (text-to-image) mükemmel uyum sağlarlar.

speed Hız

Difüzyon sürecinin tek dezavantajı üretim hızının GAN'lara göre daha yavaş olmasıdır; çünkü karıncalanma adım adım temizlenir (ancak yeni LCM teknikleriyle bu süre saniyelere düşmüştür).

quiz Sıkça Sorulan Sorular (FAQ)

  • check_circle Latent Diffusion nedir?: Karıncalanma ve temizleme işleminin doğrudan devasa pikseller üzerinde (ki bu çok yavaş ve pahalıdır) değil, görüntünün sıkıştırılmış bir 'gizli uzayında' (latent space) yapılmasıdır. Stable Diffusion bu tekniği icat ederek görsellerin normal ekran kartlarında (GPU) üretilmesini sağlamıştır.
  • check_circle Difüzyon Modelleri sadece resim mi üretir?: Hayır. OpenAI Sora ve Runway Gen-2 gibi modeller metinden video üretimi için, AudioLDM gibi modeller ses/müzik üretimi için yine difüzyon teknolojisini kullanır.