Pose Estimation (Poz Tahmini) Nedir? Tanım ve Uygulamalar

Poz Tahmini Nasıl Çalışır?

Poz Tahmini sistemleri genellikle bir evrişimli sinir ağı (CNN) veya transformer mimarisi kullanır. Model, giriş görüntüsünü işlerken her eklem noktası için bir ısı haritası (heatmap) üretir: ısı haritasındaki en yüksek aktivasyon bölgesi o noktanın konumuna karşılık gelir. Ek olarak, Part Affinity Fields (PAF) tekniğiyle hangi noktanın hangi bireye ait olduğu çözülür. PAF, eklemler arasındaki yönlü vektör alanlarını temsil eder ve bu sayede kalabalık sahnelerde birden fazla kişinin iskeleti birbirinden ayrıştırılabilir. Top-Down yöntemde nesne algılama modeli (örneğin YOLO veya Faster R-CNN) önce her kişiyi çerçeveler; ardından crop edilen bölge poz modeline gönderilir. Bu yaklaşımda her birey bağımsız işlendiğinden hassasiyet yüksektir ancak kişi sayısıyla birlikte işlem maliyeti artar. Bottom-Up yöntemde ise tüm eklem noktaları ve bağlantılar tek geçişte tahmin edilir. Sahne ne kadar kalabalık olursa olsun hesaplama süresi neredeyse sabit kalır; bu nedenle büyük kalabalık analizlerinde tercih edilir.

2B ve 3B Poz Tahmini Karşılaştırması

2B Poz Tahmini

Görüntü düzleminde x, y piksel koordinatları tahmin eder. Hızlı, hafif ve gerçek zamanlı uygulamalara uygundur. MediaPipe bu kategorinin önderidir.

3B Poz Tahmini

Derinlik (z ekseni) bilgisini de hesaplayarak gerçek dünya koordinatları üretir. Biyomekanik analiz, spor koçluğu ve VR gibi uygulamalar için gereklidir.

Top-Down Yaklaşım

Önce kişi tespiti yapılır, ardından her birey ayrı ayrı işlenir. Doğruluğu yüksektir; ancak kişi sayısıyla maliyet artar.

Bottom-Up Yaklaşım

Tüm eklem noktaları tek seferde tahmin edilip bireylere atanır. Kalabalık sahnelerde verimlidir; işlem süresi kişi sayısından bağımsızdır.

Başlıca Araçlar ve Modeller

check_circle OpenPose: Carnegie Mellon Üniversitesi'nin 2017'de yayımladığı bu model, çok kişili poz tahmininde referans çalışma olmuş ve Bottom-Up yaklaşımını öne çıkarmıştır.
check_circle MediaPipe BlazePose: Google tarafından geliştirilen bu hafif mimari, mobil cihazlarda 30 FPS'in üzerinde gerçek zamanlı 33 eklem noktası tahmini yapar.
check_circle ViTPose / ViTPose++: Transformer tabanlı bu model, büyük ölçekli eğitimle COCO ve MPII başarım ölçütlerinde en yüksek sonuçları elde etmektedir.
check_circle MMPose: OpenMMLab topluluğunun kapsamlı poz tahmin çerçevesi; onlarca modeli tek API üzerinden sunar ve araştırma için popüler tercih olmuştur.

Uygulama Alanları

check_circle Spor Analizi ve Performans Koçluğu: Atletlerin hareket biyomekaniğini ölçerek teknik hataları tespit eder; golf vuruşu, yüzme stili veya koşu formu analizi bu kapsamdadır.
check_circle Fizyoterapi ve Rehabilitasyon: Hastanın egzersiz hareketlerini kameradan izleyerek doğru postürü değerlendirir ve terapist müdahalesi olmadan geri bildirim verir.
check_circle Artırılmış ve Sanal Gerçeklik: Kullanıcının vücut hareketlerini dijital avatara aktarır; ekstra sensör donanımı gerekmeden doğal etkileşim sağlar.
check_circle Güvenlik ve Davranış Analizi: Güvenlik kameralarında şüpheli duruş veya hareket kalıplarını tanımlar; yaşlı ve engelli bireyler için düşme algılama sistemlerinde kullanılır.
check_circle Endüstriyel Ergonomi: Fabrika çalışanlarının beden duruşunu izleyerek kas-iskelet sistemi yaralanma riskini önceden saptar ve iş tasarımını optimize eder.

Sıkça Sorulan Sorular

check_circle Poz Tahmini ile nesne tespiti arasındaki fark nedir?: Nesne tespiti, görüntüdeki nesneleri sınıflandırıp sınır kutusuyla (bounding box) konumlandırır. Poz Tahmini ise bir adım öteye geçerek tespit edilen kişinin iç yapısını, yani eklem noktalarını ve iskelet bağlantılarını çıkarır.
check_circle Poz Tahmini gerçek zamanlı çalışabilir mi?: Evet. MediaPipe BlazePose ve YOLO tabanlı poz modelleri, orta düzey akıllı telefon veya dizüstü bilgisayarda 30 FPS'in üzerinde çalışabilmektedir. 3B veya yüksek çözünürlüklü modeller daha fazla hesaplama gücü gerektirir.
check_circle Kaç eklem noktası tahmin edilir?: Bu model tasarımına göre değişir. COCO standardı 17 nokta tanımlar; MediaPipe BlazePose 33 nokta çıkarır; OpenPose ise 135 noktaya kadar yüz ve el noktalarını da dahil edebilir.
check_circle Kalabalık sahnelerde doğruluk düşer mi?: Örtülme (occlusion) ve kalabalık doğruluğu olumsuz etkiler. Top-Down yöntemler her kişiyi bağımsız işlediğinden daha dayanıklıdır; Bottom-Up yöntemler ise kalabalıkta daha hızlı çalışır ancak atama hataları artabilir.