Depth Estimation (Derinlik Tahmini) Nedir? AI ile 3D Mesafe

Depth Estimation Nedir ve Neden Önemlidir?

Derinlik tahmini, bilgisayarlı görünün en temel problemlerinden biridir: düz bir 2D görüntüden gerçek dünyanın 3D geometrisini nasıl anlarız? İnsan beyni bu işlemi iki gözün yarattığı paralaks, gölgeler, bulanıklık (bokeh) ve nesne boyutlarına dair öğrenilmiş beklentiler aracılığıyla kolayca yapar. Yapay zeka sistemleri de büyük ölçekli veri setleri ve derin öğrenme mimarileri sayesinde bu yeteneği kazanmaya başlamıştır. Derinlik bilgisi, bir sahnenin yalnızca görünüşünü değil geometrisini de anlamamızı sağlar. Bu sayede bir otonom araç yoldaki engelle ne kadar yakında olduğunu ölçebilir, bir robotik kol tutmak istediği nesneye tam olarak nereden yaklaşacağını hesaplayabilir ve bir AR uygulaması sanal mobilyayı gerçek zemine matematiksel olarak yerleştirebilir.

Temel Yaklaşımlar

Monoküler Derinlik Tahmini

Tek bir RGB kamera görüntüsünden derinlik çıkarma. Perspektif, gölge ve öğrenilmiş nesne büyüklüğü ipuçlarını kullanır. En esnek yaklaşım; herhangi bir kamerayla çalışır. MiDaS, Depth Anything V2, DPT bu kategorinin en güçlü modelleridir.

Stereo Derinlik Tahmini

Yatay eksende sabit aralıkla konumlanmış iki kameradan elde edilen görüntüler arasındaki piksel kaymasını (disparity) üçgenleme prensibiyle mesafeye dönüştürür. Metrik doğruluk sağlar; ancak kalibreli çift kamera donanımı gerektirir.

Aktif Sensör Füzyonu

LiDAR veya yapısal ışık (structured light) gibi aktif derinlik sensörlerinden gelen seyrek ölçümleri kamera görüntüsüyle birleştirerek yoğun ve hassas derinlik haritaları elde etme. Otonom araç ve robot sistemlerinde yaygın kullanılan hibrit yaklaşım.

Öne Çıkan Modeller ve Araçlar

check_circle Depth Anything V2 (Meta, 2024): Büyük ölçekli sentetik verilerle eğitilen sıfır çekim monoküler derinlik modeli. Genel sahnelerde yüksek genelleme kapasitesi ve yüksek çözünürlüklü ince detay algısıyla öne çıkar; kamuya açık ağırlıklarıyla araştırmacılar için temel referans haline gelmiştir.
check_circle MiDaS (Intel ISL): Farklı veri kümelerinden karma eğitim stratejisiyle ölçek ve kaymaya bağımsız (scale-shift invariant) derinlik tahmini yapan açık kaynak model. Gerçek zamanlı uygulamalarda kullanılabilen hafif versiyonları mevcuttur.
check_circle DPT — Dense Prediction Transformer: Vision Transformer (ViT) omurgasını dense prediction için adapte eden mimari. Monoküler derinlik ve semantik segmentasyonu yüksek çözünürlükte başarıyla gerçekleştirir; encoder-decoder füzyonuyla global bağlamı korur.
check_circle DepthPro (Apple, 2024): Apple'ın geliştirdiği kenar koruyan (boundary-preserving) monoküler derinlik modeli. Metrik mutlak mesafe tahmini yapabilmesi ve gerçek zamanlı mobil performansıyla dikkat çeker.
check_circle PyTorch / Hugging Face Hub: MiDaS ve Depth Anything modelleri PyTorch Hub ve Hugging Face üzerinden birkaç satır Python koduyla kullanılabilir. OpenCV ile derinlik haritası görselleştirmesi veya nokta bulutu üretimi için ek kütüphaneler gereklidir.

Sıkça Sorulan Sorular

check_circle Derinlik haritası ile nokta bulutu arasındaki fark nedir?: Derinlik haritası, her pikselin kameradan uzaklığını 2D bir ızgara üzerinde tutan görüntüdür. Nokta bulutu (point cloud) ise bu 2D derinlik haritasının kamera intrinsic parametreleri kullanılarak 3D uzaya yansıtılmasıyla elde edilen koordinat kümesidir. Nokta bulutu, 3D modelleme ve robot navigasyonu için daha işlevlidir.
check_circle Tek kamera ile stereo kamera arasında hangi durumda hangisi tercih edilmeli?: Donanım kısıtı yoksa ve metrik doğruluk kritikse stereo kamera tercih edilir. Maliyet veya form faktörü ön plandaysa ya da sabit olmayan bir kamera kullanılıyorsa monoküler tahmin daha uygundur. Modern monoküler modeller metrik tahmin ekleyerek bu açığı kapatmaya başlamıştır.
check_circle LiDAR varken neden AI tabanlı derinlik tahmini kullanılır?: LiDAR hassas ve metrik ölçüm yapar ancak pahalıdır, seyrek veri üretir ve kötü hava koşullarında performansı düşer. AI tabanlı derinlik tahmini ucuz kameralarla yoğun ve görsel olarak tutarlı haritalar üretir. Günümüzde en iyi sistemler ikisini birleştiren sensör füzyonu yaklaşımını kullanır.
check_circle Derinlik tahmini AR uygulamalarında nasıl kullanılır?: AR sistemleri sanal nesneleri fiziksel yüzeylere veya mekânlara yerleştirirken ortamın geometrisine ihtiyaç duyar. Derinlik tahmini, kamera görüntüsünden anlık sahne geometrisini çıkararak sanal nesnenin zemin, masa veya duvar gibi yüzeylere gerçekçi biçimde oturmasını ve diğer gerçek nesnelerle uyumlu occlusion davranışı sergilemesini sağlar.