tag OpenPose

Bu sayfada OpenPose etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Pose Estimation (Poz Tahmini)

Poz Tahmini (Pose Estimation), görüntü veya video karelerinden insan vücudunun anatomik eklem noktalarını (keypoints) otomatik olarak tespit eden ve bu noktalar arasındaki bağlantılarla iskelet yapısı oluşturan bir bilgisayarlı görü tekniğidir. Omuzlar, dirsekler, bilekler, kalçalar, dizler ve ayak bilekleri gibi 17 ila 133 arası değişen sayıda eklem noktası tahmin edilerek kişinin tüm vücut duruşu sayısal olarak modellenir. Teknoloji iki temel boyut üzerinde sınıflandırılır. İki Boyutlu (2B) Poz Tahmini, görüntüdeki piksel koordinatlarında x ve y değerleri olarak eklem noktalarını belirler; hesaplama yükü düşüktür ve gerçek zamanlı uygulamalarda öne çıkar. Üç Boyutlu (3B) Poz Tahmini ise derinlik (z) bilgisini de hesaba katarak gerçek dünya koordinatlarında iskelet çıkarır; bu yöntem biyomekanik analiz ve spor performansı ölçümü için tercih edilir. Mimari yaklaşımlar açısından iki temel strateji mevcuttur. Yukarıdan Aşağıya (Top-Down) yöntemde önce bir nesne tespiti modeliyle her kişi çerçevelenir, ardından her birey için poz ayrıca hesaplanır; bu yaklaşım doğruluk açısından üstündür. Aşağıdan Yukarıya (Bottom-Up) yöntemde ise görüntüdeki tüm eklem noktaları tek seferde tahmin edilip bireylere atanır; kalabalık sahnelerde daha verimli çalışır. Alandaki öncü araçlar şunlardır: Carnegie Mellon Üniversitesi'nin geliştirdiği OpenPose (2017) çok kişili poz tahmininde referans çalışma olmuştur; Google'ın MediaPipe BlazePose mimarisi 30 FPS'in üzerinde gerçek zamanlı mobil çalışma sağlar; transformer tabanlı ViTPose ve ViTPose++ ise COCO ve MPII başarım ölçütlerinde en yüksek sonuçları elinde tutmaktadır. Uygulama alanları son derece geniştir: spor performansı analizi ve koçluk, fizyoterapi ve rehabilitasyon takibi, artırılmış ve sanal gerçeklik etkileşimi, oyun kontrolü, güvenlik kamerasında davranış analizi, endüstriyel ergonomi denetimi ve insansız araç sistemlerinde insan algısı bu alanların başında gelir. Temel teknik zorluklar arasında örtülme (occlusion), kıyafet çeşitliliği nedeniyle görünüm değişkenliği, bakış açısı belirsizliği ve kaynakları sınırlı cihazlarda gerçek zamanlı işleme bulunmaktadır. Derin öğrenme yöntemleri ve büyük ölçekli veri setleri bu zorlukların büyük bölümünü aşmayı başarmıştır.

arrow_forward