blur_on Difüzyon Modelleri Nasıl Çalışır?
Öğrenme süreci fizikteki termodinamik difüzyon kurallarına benzer. Model iki aşamada eğitilir: Birinci adım (Forward Diffusion), gerçek bir fotoğrafın üzerine adım adım pikselsel kumlanma (Gaussian noise) eklenmesi ve resmin tamamen TV karıncalanmasına dönüştürülmesidir. İkinci adım (Reverse Diffusion), yapay sinir ağının bu karıncalanmayı temizlemeyi öğrenmesidir (Denoising). Model bu temizlemeyi yaparken, sizin yazdığınız metin (prompt) vektörlerinden yönlendirme alır ve karıncaların içinden bir kedi, bir uzay gemisi veya yağlı boya tablosu çıkarır.
Difüzyon vs GAN
balance Eğitim İstikrarı
Önceki dönemin kralı GAN'ların (Üretici Çekişmeli Ağlar) eğitimi çok zordu ve sık sık çökerdi. Difüzyon modelleri matematiksel olarak çok daha stabil eğitilebilir.
palette Çeşitlilik
Difüzyon modelleri, GAN'lara kıyasla çok daha geniş bir görsel çeşitlilik ve hayal gücü sunar. Metinle yönlendirilmeye (text-to-image) mükemmel uyum sağlarlar.
speed Hız
Difüzyon sürecinin tek dezavantajı üretim hızının GAN'lara göre daha yavaş olmasıdır; çünkü karıncalanma adım adım temizlenir (ancak yeni LCM teknikleriyle bu süre saniyelere düşmüştür).
quiz Sıkça Sorulan Sorular (FAQ)
- check_circle Latent Diffusion nedir?: Karıncalanma ve temizleme işleminin doğrudan devasa pikseller üzerinde (ki bu çok yavaş ve pahalıdır) değil, görüntünün sıkıştırılmış bir 'gizli uzayında' (latent space) yapılmasıdır. Stable Diffusion bu tekniği icat ederek görsellerin normal ekran kartlarında (GPU) üretilmesini sağlamıştır.
- check_circle Difüzyon Modelleri sadece resim mi üretir?: Hayır. OpenAI Sora ve Runway Gen-2 gibi modeller metinden video üretimi için, AudioLDM gibi modeller ses/müzik üretimi için yine difüzyon teknolojisini kullanır.