tag DerinÖğrenme

Bu sayfada DerinÖğrenme etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Artificial Intelligence (Yapay Zeka)

Yapay zeka (YZ / AI — Artificial Intelligence), insan zekâsına özgü görme, anlama, öğrenme, akıl yürütme ve karar alma gibi bilişsel yetenekleri makinelerde taklit etmeyi hedefleyen bilgisayar bilimi dalıdır. 1956 yılında John McCarthy tarafından resmi bir alan olarak tanımlanan yapay zeka; zaman içinde sembolik YZ, uzman sistemler, makine öğrenimi, derin öğrenme ve büyük dil modelleri gibi alt alanlara evrilmiştir. Modern yapay zekanın merkezinde makine öğrenimi (machine learning) yer almaktadır: algoritmalar büyük veri setlerinden örüntüler öğrenerek açıkça programlanmadan görevleri yerine getirir. Derin öğrenme (deep learning), çok katmanlı sinir ağları sayesinde görüntü tanıma, doğal dil işleme ve ses sentezi alanlarında insanüstü performans sergilemiştir. 2017'de tanıtılan Transformer mimarisi ve 2020 sonrasında ortaya çıkan büyük dil modelleri (GPT-4, Claude, Gemini), yapay zekanın hem yeteneklerini hem de günlük hayata entegrasyonunu köklü biçimde dönüştürmüştür. Yapay zeka uygulamaları günümüzde sağlık, finans, eğitim, yaratıcı içerik üretimi, yazılım geliştirme, bilimsel araştırma ve daha pek çok alanda kullanılmaktadır. Genel Yapay Zekâ (AGI — Artificial General Intelligence) hedefi, insan düzeyinde veya üzerinde tüm bilişsel görevleri gerçekleştirebilen sistemleri kapsamaktadır; mevcut modeller ise dar YZ (narrow AI) kategorisinde değerlendirilmektedir.

arrow_forward accessibility_new

Pose Estimation (Poz Tahmini)

Poz Tahmini (Pose Estimation), görüntü veya video karelerinden insan vücudunun anatomik eklem noktalarını (keypoints) otomatik olarak tespit eden ve bu noktalar arasındaki bağlantılarla iskelet yapısı oluşturan bir bilgisayarlı görü tekniğidir. Omuzlar, dirsekler, bilekler, kalçalar, dizler ve ayak bilekleri gibi 17 ila 133 arası değişen sayıda eklem noktası tahmin edilerek kişinin tüm vücut duruşu sayısal olarak modellenir. Teknoloji iki temel boyut üzerinde sınıflandırılır. İki Boyutlu (2B) Poz Tahmini, görüntüdeki piksel koordinatlarında x ve y değerleri olarak eklem noktalarını belirler; hesaplama yükü düşüktür ve gerçek zamanlı uygulamalarda öne çıkar. Üç Boyutlu (3B) Poz Tahmini ise derinlik (z) bilgisini de hesaba katarak gerçek dünya koordinatlarında iskelet çıkarır; bu yöntem biyomekanik analiz ve spor performansı ölçümü için tercih edilir. Mimari yaklaşımlar açısından iki temel strateji mevcuttur. Yukarıdan Aşağıya (Top-Down) yöntemde önce bir nesne tespiti modeliyle her kişi çerçevelenir, ardından her birey için poz ayrıca hesaplanır; bu yaklaşım doğruluk açısından üstündür. Aşağıdan Yukarıya (Bottom-Up) yöntemde ise görüntüdeki tüm eklem noktaları tek seferde tahmin edilip bireylere atanır; kalabalık sahnelerde daha verimli çalışır. Alandaki öncü araçlar şunlardır: Carnegie Mellon Üniversitesi'nin geliştirdiği OpenPose (2017) çok kişili poz tahmininde referans çalışma olmuştur; Google'ın MediaPipe BlazePose mimarisi 30 FPS'in üzerinde gerçek zamanlı mobil çalışma sağlar; transformer tabanlı ViTPose ve ViTPose++ ise COCO ve MPII başarım ölçütlerinde en yüksek sonuçları elinde tutmaktadır. Uygulama alanları son derece geniştir: spor performansı analizi ve koçluk, fizyoterapi ve rehabilitasyon takibi, artırılmış ve sanal gerçeklik etkileşimi, oyun kontrolü, güvenlik kamerasında davranış analizi, endüstriyel ergonomi denetimi ve insansız araç sistemlerinde insan algısı bu alanların başında gelir. Temel teknik zorluklar arasında örtülme (occlusion), kıyafet çeşitliliği nedeniyle görünüm değişkenliği, bakış açısı belirsizliği ve kaynakları sınırlı cihazlarda gerçek zamanlı işleme bulunmaktadır. Derin öğrenme yöntemleri ve büyük ölçekli veri setleri bu zorlukların büyük bölümünü aşmayı başarmıştır.

arrow_forward