tag DiffusionModel

Bu sayfada DiffusionModel etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

DDPM (DDPM (Gürültü Giderme Difüzyon Olasılık Modeli))

DDPM (Denoising Diffusion Probabilistic Models), Jonathan Ho ve arkadaşları tarafından 2020 yılında yayımlanan, modern difüzyon modellerinin temelini atan çığır açıcı bir üretici yapay zeka modelidir. "Denoising Diffusion Probabilistic Models" (NeurIPS 2020) makalesiyle tanıtılan DDPM, GAN ile kıyaslanabilir görüntü kalitesi sunarken çok daha kararlı bir eğitim sürecine sahip olduğunu kanıtlamıştır. DDPM iki süreçten oluşur. İleri süreçte (forward process, q) temiz veri x₀'a kademeli olarak T adım boyunca Gaussian gürültü eklenir. Her adımda gürültü miktarı, β_t olarak adlandırılan küçük sabit bir değerle kontrol edilir. T adım sonunda (genellikle T=1.000) veri tamamen bir Gaussian dağılımına (saf gürültüye) dönüşür. Ters süreçte (reverse process, p_θ) model, gürültülü bir örnekten başlayarak gerçek veri dağılımını adım adım kurtarmayı öğrenir. Her adımda bir sinir ağı (genellikle U-Net), o adımdaki gürültüyü tahmin eder. Kayıp fonksiyonu sadeleştirilerek "gürültüyü tahmin etmek"e (epsilon prediction) indirgenir. DDPM, sonraki tüm büyük gelişmelerin (DDIM, LDM, Stable Diffusion, DALL-E 2/3) çıkış noktası olmuştur.

arrow_forward noise_control_off

Denoising (Gürültü Giderme (Denoising))

Gürültü giderme (Denoising), bir sinyalden, görüntüden veya veri kümesinden istenmeyen rassal bozulmaları (gürültüyü) kaldırmaya yönelik işlemler bütünüdür. Yapay zeka alanında gürültü giderme hem bağımsız bir görev hem de difüzyon modellerinin, ses işlemenin ve görüntü restorasyonunun temel yapı taşıdır. Klasik gürültü giderme yöntemleri arasında ortalama filtresi, Gaussian filtresi ve median filtresi yer alır. Modern derin öğrenme tabanlı yaklaşımlar ise çok daha üstün sonuçlar verir. Konvolüsyonel sinir ağları (CNN) ve U-Net mimarileri, gürültülü girdiyi temiz çıktıya eşleştiren fonksiyonu öğrenir; DnCNN, FFDNet ve Noise2Void gibi mimariler bu kategoridedir. Difüzyon modellerinde gürültü giderme merkezi bir rol üstlenir. Model, belirli bir gürültü seviyesindeki (x_t) örnekten gürültüyü tahmin etmeyi öğrenir. Bu "gürültü tahmini" (ε-prediction) işlemi, Denoising Score Matching teorisine dayanır. Çıkarım sırasında model saf gürültüden (x_T) başlayarak adım adım gürültüyü çıkarır ve temiz veri x₀'a ulaşır. Ses işlemede gürültü giderme, konuşma netleştirme (speech enhancement) ve ses kayıt temizleme için kullanılır. Nvidia RTX Noise Cancellation, DeepFilterNet ve RNNoise bu alandaki öne çıkan araçlardır.

arrow_forward blur_on

Diffusion Model (Yayılım Modeli (Diffusion Modeli))

Diffusion modeli, veriye kademeli olarak gürültü ekleyen (ileri süreç) ve ardından bu gürültüden orijinal veriyi adım adım yeniden oluşturmayı öğrenen (ters süreç) bir üretici yapay zeka mimarisidir. Stable Diffusion, DALL-E 3, Midjourney ve Imagen gibi günümüzün en güçlü görüntü üretim sistemleri difüzyon modeline dayanmaktadır. İleri süreçte (forward process) modele verilen temiz görüntüye T adım boyunca Gaussian gürültü eklenir; sonunda görüntü tamamen gürültüye dönüşür. Bu süreç deterministik ve önceden tanımlanmıştır — öğrenme gerektirmez. Ters süreçte (reverse process) model, tamamen gürültülü bir görüntüden başlayarak her adımda biraz daha temizleyerek orijinale yakın bir görüntü üretir. Model bu ters süreci veriden öğrenir. Eğitim sırasında model, belirli bir gürültü seviyesindeki görüntüden hangi gürültünün çıkarılması gerektiğini tahmin etmeyi öğrenir. Çıkarım sırasında tamamen rastgele gürültüden başlanır ve model bu tahmin sürecini T adım boyunca tekrarlayarak yeni, gerçekçi bir görüntü üretir. Metin koşullandırması (text conditioning) ise CLIP gibi bir metin kodlayıcısından gelen vektörün dikkat mekanizmasına (cross-attention) enjekte edilmesiyle sağlanır.

arrow_forward layers

Latent Diffusion Model (Gizil Uzay Difüzyon Modeli (Latent Diffusion))

Latent Diffusion Model (LDM), difüzyon işlemini piksel uzayı yerine sıkıştırılmış bir gizil (latent) uzayda gerçekleştiren verimli bir üretici yapay zeka mimarisidir. Robin Rombach ve arkadaşları tarafından 2022 yılında yayımlanan "High-Resolution Image Synthesis with Latent Diffusion Models" makalesiyle tanıtılan bu mimari, Stable Diffusion'ın temelini oluşturur. Geleneksel piksel uzayı difüzyon modellerinde (DDPM gibi) tüm hesaplama, görüntünün tam boyutunda (örn. 512×512×3 = 786.432 boyut) yapılır. Bu son derece hesaplama yoğundur. LDM'de ise önce bir Varyasyonel Otoenkoder (VAE) görüntüyü çok daha küçük bir gizil temsile sıkıştırır (örn. 64×64×4 = 16.384 boyut); difüzyon süreci bu küçük uzayda çalışır; sonunda VAE dekoderi gizil uzay çıktısını tam boyutlu görüntüye dönüştürür. Bu yaklaşım, hesaplama maliyetini piksel tabanlı difüzyona kıyasla yaklaşık 48 kat azaltır. Metin koşullandırması, CLIP veya OpenCLIP metin kodlayıcısından gelen vektörlerin U-Net'in cross-attention katmanlarına enjekte edilmesiyle sağlanır. Sıkıştırma ve kalite arasındaki denge, VAE'nin yeniden yapılandırma başarısına bağlıdır.

arrow_forward account_tree

U-Net (U-Net Mimarisi)

U-Net, Olaf Ronneberger ve arkadaşları tarafından 2015 yılında tıbbi görüntü segmentasyonu için geliştirilen, encoder-decoder yapısını simetrik atlama bağlantılarıyla (skip connections) birleştiren bir evrişimli sinir ağı mimarisidir. "U-Net: Convolutional Networks for Biomedical Image Segmentation" makalesiyle tanıtılan bu mimari, modern difüzyon modellerinin ve görüntü-görüntü çeviri ağlarının temel yapısı haline gelmiştir. U-Net iki ana bölümden oluşur. Encoder (daralma yolu), görüntüden giderek soyutlanan özellikler çıkarır; her katmanda uzamsal boyut yarıya iner, kanal sayısı ikiye katlanır (örn. 64→128→256→512). Bu "aşağı yol" mekânsal bilgiyi kaybeder ama anlambilimsel (semantik) zenginleşir. Decoder (genişleme yolu), encoder çıkışından başlayarak transposed convolution veya bilinear upsampling ile uzamsal boyutu kademeli olarak geri kazanır. Skip connections, encoder'ın her katman çıkışını, aynı çözünürlükteki decoder katmanına kopyalar ve birleştirir (concatenate). Bu bağlantılar, encoder'ın kaybettiği ince mekânsal ayrıntıları decoder'a aktarır; bu sayede hem yüksek çözünürlük hem de derin anlambilimsel bilgi bir arada korunur. U-Net bugün tıbbi segmentasyonun çok ötesinde kullanılmaktadır: tüm DDPM ve Stable Diffusion modellerinin gürültü tahmin ağı U-Net'tir; görüntüden görüntüye çeviri (pix2pix, ControlNet) ve anomali tespiti gibi görevlerde de yaygın olarak tercih edilmektedir.

arrow_forward