tag StableDiffusion

Bu sayfada StableDiffusion etiketi ile işaretlenmiş 5 yapay zeka kavramını bulabilirsiniz.

Stable Diffusion, Stability AI tarafından yayınlanan, metin komutlarından son derece gerçekçi ve yüksek çözünürlüklü dijital görüntüler üretebilen bir Latent Difüzyon (Latent Diffusion) modelidir. Midjourney ve DALL-E'den en büyük farkı, tamamen açık kaynaklı olması, bedava olması ve evdeki bilgisayarınızın ekran kartına indirilerek sansürsüz ve sınırsız çalıştırılabilmesidir.

blur_on

Diffusion Model (Yayılım Modeli (Diffusion Modeli))

Diffusion modeli, veriye kademeli olarak gürültü ekleyen (ileri süreç) ve ardından bu gürültüden orijinal veriyi adım adım yeniden oluşturmayı öğrenen (ters süreç) bir üretici yapay zeka mimarisidir. Stable Diffusion, DALL-E 3, Midjourney ve Imagen gibi günümüzün en güçlü görüntü üretim sistemleri difüzyon modeline dayanmaktadır. İleri süreçte (forward process) modele verilen temiz görüntüye T adım boyunca Gaussian gürültü eklenir; sonunda görüntü tamamen gürültüye dönüşür. Bu süreç deterministik ve önceden tanımlanmıştır — öğrenme gerektirmez. Ters süreçte (reverse process) model, tamamen gürültülü bir görüntüden başlayarak her adımda biraz daha temizleyerek orijinale yakın bir görüntü üretir. Model bu ters süreci veriden öğrenir. Eğitim sırasında model, belirli bir gürültü seviyesindeki görüntüden hangi gürültünün çıkarılması gerektiğini tahmin etmeyi öğrenir. Çıkarım sırasında tamamen rastgele gürültüden başlanır ve model bu tahmin sürecini T adım boyunca tekrarlayarak yeni, gerçekçi bir görüntü üretir. Metin koşullandırması (text conditioning) ise CLIP gibi bir metin kodlayıcısından gelen vektörün dikkat mekanizmasına (cross-attention) enjekte edilmesiyle sağlanır.

arrow_forward wallpaper

Diffusion Models (Difüzyon Modelleri)

Difüzyon Modelleri (Diffusion Models), görüntü, video ve ses üretimi alanında devrim yaratan, Midjourney, DALL-E 3 ve Stable Diffusion gibi görsel yapay zeka araçlarının temelini oluşturan üretken (generative) yapay zeka mimarisidir. Temel çalışma prensibi; net bir görüntüyü yavaş yavaş karıncalandırarak (gürültü/noise ekleyerek) yok etmeyi öğrenmek ve daha sonra bu süreci tersine çevirerek tamamen rastgele bir kumlanmadan (noise), saf ve yeni bir görüntü (veya sanat eseri) inşa etmektir.

arrow_forward layers

Latent Diffusion Model (Gizil Uzay Difüzyon Modeli (Latent Diffusion))

Latent Diffusion Model (LDM), difüzyon işlemini piksel uzayı yerine sıkıştırılmış bir gizil (latent) uzayda gerçekleştiren verimli bir üretici yapay zeka mimarisidir. Robin Rombach ve arkadaşları tarafından 2022 yılında yayımlanan "High-Resolution Image Synthesis with Latent Diffusion Models" makalesiyle tanıtılan bu mimari, Stable Diffusion'ın temelini oluşturur. Geleneksel piksel uzayı difüzyon modellerinde (DDPM gibi) tüm hesaplama, görüntünün tam boyutunda (örn. 512×512×3 = 786.432 boyut) yapılır. Bu son derece hesaplama yoğundur. LDM'de ise önce bir Varyasyonel Otoenkoder (VAE) görüntüyü çok daha küçük bir gizil temsile sıkıştırır (örn. 64×64×4 = 16.384 boyut); difüzyon süreci bu küçük uzayda çalışır; sonunda VAE dekoderi gizil uzay çıktısını tam boyutlu görüntüye dönüştürür. Bu yaklaşım, hesaplama maliyetini piksel tabanlı difüzyona kıyasla yaklaşık 48 kat azaltır. Metin koşullandırması, CLIP veya OpenCLIP metin kodlayıcısından gelen vektörlerin U-Net'in cross-attention katmanlarına enjekte edilmesiyle sağlanır. Sıkıştırma ve kalite arasındaki denge, VAE'nin yeniden yapılandırma başarısına bağlıdır.

arrow_forward layers_clear

LoRA (Low-Rank Adaptation) (Düşük Dereceli Adaptasyon)

LoRA (Low-Rank Adaptation), devasa büyük dil modellerini (LLM) veya görsel difüzyon modellerini ince ayar (Fine-Tuning) yapmak için kullanılan, parametre açısından son derece verimli bir (PEFT) tekniktir. Milyarlarca parametresi olan bir modeli baştan eğitmek yerine, modelin içine küçük matematiksel matrisler enjekte ederek eğitimin inanılmaz derecede ucuz, hızlı ve düşük hafızayla (tek bir ev GPU'sunda) yapılabilmesini sağlar.

arrow_forward view_in_ar

Stable Diffusion

arrow_forward