Poz Tahmini, görüntü veya videodan insan vücudunun eklem noktalarını tespit eden bilgisayarlı görü tekniğidir.

Poz Tahmini (Pose Estimation), görüntü veya video karelerinden insan vücudunun anatomik eklem noktalarını (keypoints) otomatik olarak tespit eden ve bu noktalar arasındaki bağlantılarla iskelet yapısı oluşturan bir bilgisayarlı görü tekniğidir. Omuzlar, dirsekler, bilekler, kalçalar, dizler ve ayak bilekleri gibi 17 ila 133 arası değişen sayıda eklem noktası tahmin edilerek kişinin tüm vücut duruşu sayısal olarak modellenir. Teknoloji iki temel boyut üzerinde sınıflandırılır. İki Boyutlu (2B) Poz Tahmini, görüntüdeki piksel koordinatlarında x ve y değerleri olarak eklem noktalarını belirler; hesaplama yükü düşüktür ve gerçek zamanlı uygulamalarda öne çıkar. Üç Boyutlu (3B) Poz Tahmini ise derinlik (z) bilgisini de hesaba katarak gerçek dünya koordinatlarında iskelet çıkarır; bu yöntem biyomekanik analiz ve spor performansı ölçümü için tercih edilir. Mimari yaklaşımlar açısından iki temel strateji mevcuttur. Yukarıdan Aşağıya (Top-Down) yöntemde önce bir nesne tespiti modeliyle her kişi çerçevelenir, ardından her birey için poz ayrıca hesaplanır; bu yaklaşım doğruluk açısından üstündür. Aşağıdan Yukarıya (Bottom-Up) yöntemde ise görüntüdeki tüm eklem noktaları tek seferde tahmin edilip bireylere atanır; kalabalık sahnelerde daha verimli çalışır. Alandaki öncü araçlar şunlardır: Carnegie Mellon Üniversitesi'nin geliştirdiği OpenPose (2017) çok kişili poz tahmininde referans çalışma olmuştur; Google'ın MediaPipe BlazePose mimarisi 30 FPS'in üzerinde gerçek zamanlı mobil çalışma sağlar; transformer tabanlı ViTPose ve ViTPose++ ise COCO ve MPII başarım ölçütlerinde en yüksek sonuçları elinde tutmaktadır. Uygulama alanları son derece geniştir: spor performansı analizi ve koçluk, fizyoterapi ve rehabilitasyon takibi, artırılmış ve sanal gerçeklik etkileşimi, oyun kontrolü, güvenlik kamerasında davranış analizi, endüstriyel ergonomi denetimi ve insansız araç sistemlerinde insan algısı bu alanların başında gelir. Temel teknik zorluklar arasında örtülme (occlusion), kıyafet çeşitliliği nedeniyle görünüm değişkenliği, bakış açısı belirsizliği ve kaynakları sınırlı cihazlarda gerçek zamanlı işleme bulunmaktadır. Derin öğrenme yöntemleri ve büyük ölçekli veri setleri bu zorlukların büyük bölümünü aşmayı başarmıştır.

Poz Tahmini Nasıl Çalışır?

Poz Tahmini sistemleri genellikle bir evrişimli sinir ağı (CNN) veya transformer mimarisi kullanır. Model, giriş görüntüsünü işlerken her eklem noktası için bir ısı haritası (heatmap) üretir: ısı haritasındaki en yüksek aktivasyon bölgesi o noktanın konumuna karşılık gelir. Ek olarak, Part Affinity Fields (PAF) tekniğiyle hangi noktanın hangi bireye ait olduğu çözülür. PAF, eklemler arasındaki yönlü vektör alanlarını temsil eder ve bu sayede kalabalık sahnelerde birden fazla kişinin iskeleti birbirinden ayrıştırılabilir. Top-Down yöntemde nesne algılama modeli (örneğin YOLO veya Faster R-CNN) önce her kişiyi çerçeveler; ardından crop edilen bölge poz modeline gönderilir. Bu yaklaşımda her birey bağımsız işlendiğinden hassasiyet yüksektir ancak kişi sayısıyla birlikte işlem maliyeti artar. Bottom-Up yöntemde ise tüm eklem noktaları ve bağlantılar tek geçişte tahmin edilir. Sahne ne kadar kalabalık olursa olsun hesaplama süresi neredeyse sabit kalır; bu nedenle büyük kalabalık analizlerinde tercih edilir.

2B ve 3B Poz Tahmini Karşılaştırması

2B Poz Tahmini

Görüntü düzleminde x, y piksel koordinatları tahmin eder. Hızlı, hafif ve gerçek zamanlı uygulamalara uygundur. MediaPipe bu kategorinin önderidir.

3B Poz Tahmini

Derinlik (z ekseni) bilgisini de hesaplayarak gerçek dünya koordinatları üretir. Biyomekanik analiz, spor koçluğu ve VR gibi uygulamalar için gereklidir.

Top-Down Yaklaşım

Önce kişi tespiti yapılır, ardından her birey ayrı ayrı işlenir. Doğruluğu yüksektir; ancak kişi sayısıyla maliyet artar.

Bottom-Up Yaklaşım

Tüm eklem noktaları tek seferde tahmin edilip bireylere atanır. Kalabalık sahnelerde verimlidir; işlem süresi kişi sayısından bağımsızdır.

Başlıca Araçlar ve Modeller

  • check_circle OpenPose: Carnegie Mellon Üniversitesi'nin 2017'de yayımladığı bu model, çok kişili poz tahmininde referans çalışma olmuş ve Bottom-Up yaklaşımını öne çıkarmıştır.
  • check_circle MediaPipe BlazePose: Google tarafından geliştirilen bu hafif mimari, mobil cihazlarda 30 FPS'in üzerinde gerçek zamanlı 33 eklem noktası tahmini yapar.
  • check_circle ViTPose / ViTPose++: Transformer tabanlı bu model, büyük ölçekli eğitimle COCO ve MPII başarım ölçütlerinde en yüksek sonuçları elde etmektedir.
  • check_circle MMPose: OpenMMLab topluluğunun kapsamlı poz tahmin çerçevesi; onlarca modeli tek API üzerinden sunar ve araştırma için popüler tercih olmuştur.

Uygulama Alanları

  • check_circle Spor Analizi ve Performans Koçluğu: Atletlerin hareket biyomekaniğini ölçerek teknik hataları tespit eder; golf vuruşu, yüzme stili veya koşu formu analizi bu kapsamdadır.
  • check_circle Fizyoterapi ve Rehabilitasyon: Hastanın egzersiz hareketlerini kameradan izleyerek doğru postürü değerlendirir ve terapist müdahalesi olmadan geri bildirim verir.
  • check_circle Artırılmış ve Sanal Gerçeklik: Kullanıcının vücut hareketlerini dijital avatara aktarır; ekstra sensör donanımı gerekmeden doğal etkileşim sağlar.
  • check_circle Güvenlik ve Davranış Analizi: Güvenlik kameralarında şüpheli duruş veya hareket kalıplarını tanımlar; yaşlı ve engelli bireyler için düşme algılama sistemlerinde kullanılır.
  • check_circle Endüstriyel Ergonomi: Fabrika çalışanlarının beden duruşunu izleyerek kas-iskelet sistemi yaralanma riskini önceden saptar ve iş tasarımını optimize eder.

Sıkça Sorulan Sorular

  • check_circle Poz Tahmini ile nesne tespiti arasındaki fark nedir?: Nesne tespiti, görüntüdeki nesneleri sınıflandırıp sınır kutusuyla (bounding box) konumlandırır. Poz Tahmini ise bir adım öteye geçerek tespit edilen kişinin iç yapısını, yani eklem noktalarını ve iskelet bağlantılarını çıkarır.
  • check_circle Poz Tahmini gerçek zamanlı çalışabilir mi?: Evet. MediaPipe BlazePose ve YOLO tabanlı poz modelleri, orta düzey akıllı telefon veya dizüstü bilgisayarda 30 FPS'in üzerinde çalışabilmektedir. 3B veya yüksek çözünürlüklü modeller daha fazla hesaplama gücü gerektirir.
  • check_circle Kaç eklem noktası tahmin edilir?: Bu model tasarımına göre değişir. COCO standardı 17 nokta tanımlar; MediaPipe BlazePose 33 nokta çıkarır; OpenPose ise 135 noktaya kadar yüz ve el noktalarını da dahil edebilir.
  • check_circle Kalabalık sahnelerde doğruluk düşer mi?: Örtülme (occlusion) ve kalabalık doğruluğu olumsuz etkiler. Top-Down yöntemler her kişiyi bağımsız işlediğinden daha dayanıklıdır; Bottom-Up yöntemler ise kalabalıkta daha hızlı çalışır ancak atama hataları artabilir.