Derinlik Tahmini, AI modellerinin 2D görüntülerden her pikselin kameraya uzaklığını çıkardığı süreçtir; otonom araçlar, AR/VR ve robotik için temeldir.

Depth estimation (derinlik tahmini), bir yapay zeka modelinin tek veya iki kameralı 2D görüntülerden sahnedeki her noktanın kameraya olan uzaklığını otomatik olarak tahmin etmesidir. Çıktı olarak her pikselin mesafeye karşılık geldiği bir "derinlik haritası" (depth map) üretilir: yakın nesneler genellikle sıcak ya da parlak tonlarla, uzak nesneler ise koyu ya da soğuk tonlarla gösterilir. İki temel yaklaşım öne çıkar. Monoküler derinlik tahmini, yalnızca tek bir görüntüden perspektif ipuçları, gölgeler ve nesne boyutlarını kullanarak derinliği çıkarır. MiDaS, DPT (Dense Prediction Transformer) ve Meta'nın Depth Anything V2 modeli günümüzün en başarılı monoküler sistemleri arasında yer alır; bu modeller çok sayıda farklı veri kümesi üzerinde eğitilerek sahne bağımsız genelleme kapasitesi kazanır. Stereo derinlik tahmini ise yatay eksende belirli bir uzaklıkta yerleştirilmiş iki kameradan elde edilen görüntüler arasındaki piksel kaymasını (disparity) analiz eder; insan görme sistemindeki çift göz prensibini taklit eden bu yaklaşım daha kesin metrik mesafe bilgisi sunar. Uygulama yelpazesi oldukça geniştir. Otonom araçlar çevrelerini anlamlandırmak için derinlik haritalarına ihtiyaç duyar; artırılmış gerçeklik sistemleri sanal nesneleri fiziksel ortama gerçekçi biçimde yerleştirirken derinlik bilgisini kullanır; endüstriyel robotlar kavrama hassasiyeti için sahne geometrisini derinlik tahminiyle öğrenir. Buna ek olarak 3D nokta bulutu üretimi, sahne yeniden yapılandırma ve LiDAR sensör füzyonu gibi ileri düzey uygulamalarda da temel altyapı görevi görür. Mimari açıdan modern modeller encoder-decoder yapısını benimser: CNN veya Vision Transformer tabanlı encoder görüntüden özellikler çıkarır, decoder bu özellikleri yüksek çözünürlüklü derinlik haritasına dönüştürür. Araştırmanın güncel odakları arasında sıfır çekim (zero-shot) monoküler tahmin, videoda tutarlı derinlik ve mutlak metrik mesafe tahmini bulunmaktadır.

Depth Estimation Nedir ve Neden Önemlidir?

Derinlik tahmini, bilgisayarlı görünün en temel problemlerinden biridir: düz bir 2D görüntüden gerçek dünyanın 3D geometrisini nasıl anlarız? İnsan beyni bu işlemi iki gözün yarattığı paralaks, gölgeler, bulanıklık (bokeh) ve nesne boyutlarına dair öğrenilmiş beklentiler aracılığıyla kolayca yapar. Yapay zeka sistemleri de büyük ölçekli veri setleri ve derin öğrenme mimarileri sayesinde bu yeteneği kazanmaya başlamıştır. Derinlik bilgisi, bir sahnenin yalnızca görünüşünü değil geometrisini de anlamamızı sağlar. Bu sayede bir otonom araç yoldaki engelle ne kadar yakında olduğunu ölçebilir, bir robotik kol tutmak istediği nesneye tam olarak nereden yaklaşacağını hesaplayabilir ve bir AR uygulaması sanal mobilyayı gerçek zemine matematiksel olarak yerleştirebilir.

Temel Yaklaşımlar

Monoküler Derinlik Tahmini

Tek bir RGB kamera görüntüsünden derinlik çıkarma. Perspektif, gölge ve öğrenilmiş nesne büyüklüğü ipuçlarını kullanır. En esnek yaklaşım; herhangi bir kamerayla çalışır. MiDaS, Depth Anything V2, DPT bu kategorinin en güçlü modelleridir.

Stereo Derinlik Tahmini

Yatay eksende sabit aralıkla konumlanmış iki kameradan elde edilen görüntüler arasındaki piksel kaymasını (disparity) üçgenleme prensibiyle mesafeye dönüştürür. Metrik doğruluk sağlar; ancak kalibreli çift kamera donanımı gerektirir.

Aktif Sensör Füzyonu

LiDAR veya yapısal ışık (structured light) gibi aktif derinlik sensörlerinden gelen seyrek ölçümleri kamera görüntüsüyle birleştirerek yoğun ve hassas derinlik haritaları elde etme. Otonom araç ve robot sistemlerinde yaygın kullanılan hibrit yaklaşım.

Öne Çıkan Modeller ve Araçlar

  • check_circle Depth Anything V2 (Meta, 2024): Büyük ölçekli sentetik verilerle eğitilen sıfır çekim monoküler derinlik modeli. Genel sahnelerde yüksek genelleme kapasitesi ve yüksek çözünürlüklü ince detay algısıyla öne çıkar; kamuya açık ağırlıklarıyla araştırmacılar için temel referans haline gelmiştir.
  • check_circle MiDaS (Intel ISL): Farklı veri kümelerinden karma eğitim stratejisiyle ölçek ve kaymaya bağımsız (scale-shift invariant) derinlik tahmini yapan açık kaynak model. Gerçek zamanlı uygulamalarda kullanılabilen hafif versiyonları mevcuttur.
  • check_circle DPT — Dense Prediction Transformer: Vision Transformer (ViT) omurgasını dense prediction için adapte eden mimari. Monoküler derinlik ve semantik segmentasyonu yüksek çözünürlükte başarıyla gerçekleştirir; encoder-decoder füzyonuyla global bağlamı korur.
  • check_circle DepthPro (Apple, 2024): Apple'ın geliştirdiği kenar koruyan (boundary-preserving) monoküler derinlik modeli. Metrik mutlak mesafe tahmini yapabilmesi ve gerçek zamanlı mobil performansıyla dikkat çeker.
  • check_circle PyTorch / Hugging Face Hub: MiDaS ve Depth Anything modelleri PyTorch Hub ve Hugging Face üzerinden birkaç satır Python koduyla kullanılabilir. OpenCV ile derinlik haritası görselleştirmesi veya nokta bulutu üretimi için ek kütüphaneler gereklidir.

Sıkça Sorulan Sorular

  • check_circle Derinlik haritası ile nokta bulutu arasındaki fark nedir?: Derinlik haritası, her pikselin kameradan uzaklığını 2D bir ızgara üzerinde tutan görüntüdür. Nokta bulutu (point cloud) ise bu 2D derinlik haritasının kamera intrinsic parametreleri kullanılarak 3D uzaya yansıtılmasıyla elde edilen koordinat kümesidir. Nokta bulutu, 3D modelleme ve robot navigasyonu için daha işlevlidir.
  • check_circle Tek kamera ile stereo kamera arasında hangi durumda hangisi tercih edilmeli?: Donanım kısıtı yoksa ve metrik doğruluk kritikse stereo kamera tercih edilir. Maliyet veya form faktörü ön plandaysa ya da sabit olmayan bir kamera kullanılıyorsa monoküler tahmin daha uygundur. Modern monoküler modeller metrik tahmin ekleyerek bu açığı kapatmaya başlamıştır.
  • check_circle LiDAR varken neden AI tabanlı derinlik tahmini kullanılır?: LiDAR hassas ve metrik ölçüm yapar ancak pahalıdır, seyrek veri üretir ve kötü hava koşullarında performansı düşer. AI tabanlı derinlik tahmini ucuz kameralarla yoğun ve görsel olarak tutarlı haritalar üretir. Günümüzde en iyi sistemler ikisini birleştiren sensör füzyonu yaklaşımını kullanır.
  • check_circle Derinlik tahmini AR uygulamalarında nasıl kullanılır?: AR sistemleri sanal nesneleri fiziksel yüzeylere veya mekânlara yerleştirirken ortamın geometrisine ihtiyaç duyar. Derinlik tahmini, kamera görüntüsünden anlık sahne geometrisini çıkararak sanal nesnenin zemin, masa veya duvar gibi yüzeylere gerçekçi biçimde oturmasını ve diğer gerçek nesnelerle uyumlu occlusion davranışı sergilemesini sağlar.