U-Net, encoder-decoder yapısını skip connection'larla birleştiren, hem segmentasyonda hem difüzyon modellerinde kullanılan CNN mimarisidir.

U-Net, Olaf Ronneberger ve arkadaşları tarafından 2015 yılında tıbbi görüntü segmentasyonu için geliştirilen, encoder-decoder yapısını simetrik atlama bağlantılarıyla (skip connections) birleştiren bir evrişimli sinir ağı mimarisidir. "U-Net: Convolutional Networks for Biomedical Image Segmentation" makalesiyle tanıtılan bu mimari, modern difüzyon modellerinin ve görüntü-görüntü çeviri ağlarının temel yapısı haline gelmiştir. U-Net iki ana bölümden oluşur. Encoder (daralma yolu), görüntüden giderek soyutlanan özellikler çıkarır; her katmanda uzamsal boyut yarıya iner, kanal sayısı ikiye katlanır (örn. 64→128→256→512). Bu "aşağı yol" mekânsal bilgiyi kaybeder ama anlambilimsel (semantik) zenginleşir. Decoder (genişleme yolu), encoder çıkışından başlayarak transposed convolution veya bilinear upsampling ile uzamsal boyutu kademeli olarak geri kazanır. Skip connections, encoder'ın her katman çıkışını, aynı çözünürlükteki decoder katmanına kopyalar ve birleştirir (concatenate). Bu bağlantılar, encoder'ın kaybettiği ince mekânsal ayrıntıları decoder'a aktarır; bu sayede hem yüksek çözünürlük hem de derin anlambilimsel bilgi bir arada korunur. U-Net bugün tıbbi segmentasyonun çok ötesinde kullanılmaktadır: tüm DDPM ve Stable Diffusion modellerinin gürültü tahmin ağı U-Net'tir; görüntüden görüntüye çeviri (pix2pix, ControlNet) ve anomali tespiti gibi görevlerde de yaygın olarak tercih edilmektedir.

architecture U-Net Mimarisinin Yapısı

U-Net'in ismi, mimariyi temsil eden diyagramın U harfi şeklinde görünmesinden gelir. Sol kol (encoder) bir dizi convolutional block + max-pooling içerir; sağ kol (decoder) transposed convolution + convolutional block içerir. Her çözünürlük seviyesinde encoder çıkışı, decoder girdisiyle concatenate edilir — bu skip connections mimarinin can damarıdır. Orijinal U-Net'in en küçük uzamsal seviyesinde (bottleneck) 1024 kanallı özellik haritası bulunur. Difüzyon modellerinde kullanılan U-Net versiyonları zaman adımı t'yi sinüs pozisyonel gömme (sinusoidal embedding) olarak her block'a ekler, ayrıca cross-attention katmanlarıyla metin veya diğer koşullandırma sinyallerini alır. Bu sayede aynı mimari hem zaman koşullu hem de metin koşullu üretim yapabilir.

apps U-Net Kullanım Alanları

  • check_circle Tıbbi Görüntü Segmentasyonu: MRI, BT ve patoloji görüntülerinde tümör, organ ve hücre sınırlarını piksel düzeyinde belirler. nnU-Net, farklı görevlere otomatik adapte olan tıbbi segmentasyon standardı haline gelmiştir.
  • check_circle Difüzyon Modeli Gürültü Tahmini: DDPM ve LDM'de ε_θ(x_t, t) — gürültüyü tahmin eden ağ — U-Net'tir. Zaman gömme ve cross-attention eklenerek koşullu üretim sağlanır.
  • check_circle Görüntüden Görüntüye Çeviri: Pix2Pix, CycleGAN ve ControlNet, U-Net'i generator olarak kullanır. Semantik haritadan gerçekçi görüntü, gündüzden geceye çeviri gibi görevlerde başarılıdır.
  • check_circle Anomali Tespiti: Üretici modelde beklenen ve gerçek görüntü arasındaki fark, U-Net ile piksel düzeyinde haritalanır. Sanayi kalite kontrolü ve tıbbi anomali tespitinde kullanılır.

quiz Sıkça Sorulan Sorular

  • check_circle Skip connections neden kritik?: Encoder derinleştikçe mekânsal bilgi (kenar, doku konumu) giderek kaybolur; sadece yüksek seviyeli anlambilimsel bilgi kalır. Skip connections, bu kaybolan mekânsal ayrıntıları doğrudan decoder'ın ilgili katmanına aktarır. Bu sayede model hem "ne var" sorusunu hem de "nerede" sorusunu birlikte yanıtlayabilir.
  • check_circle U-Net neden az veriyle çalışıyor?: Orijinal U-Net, yalnızca 30 eğitim görüntüsüyle rekabetçi sonuç verdi. Bunun nedenleri: skip connections sayesinde öğrenilmesi gereken parametre sayısı azalır, data augmentation büyük veri setini simüle eder ve encoder önceden eğitilmiş ağırlıklarla başlatılabilir (transfer öğrenme).
  • check_circle Attention U-Net nedir?: Oktay ve ark. (2018) tarafından önerildi; skip connections'a attention gate eklenir. Bu mekanizma, decoder'ın encoder özelliklerinin yalnızca görevle ilgili bölümlerine odaklanmasını sağlar. Pankreasın küçük sınırını bulmak gibi zorlu segmentasyonlarda önemli iyileştirme sunar.
  • check_circle U-Net GPU olmadan çalışabilir mi?: Küçük U-Net modelleri CPU'da çalışabilir ama yavaştır. Tıbbi görüntüleme iş akışlarında genellikle GPU zorunludur. Difüzyon modellerindeki büyük U-Net'ler (SD 1.5'te ~860M parametre) için minimum 4 GB VRAM önerilir.