Bilgisayarlı Görü Nedir? YOLO, SAM ve CNN (2026)
Bilgisayarlı görü, makinelerin fotoğraf ve videodan anlam çıkarmasını sağlayan yapay zeka dalıdır. Pratikte şöyle görünür: kamera görüntüsündeki yayayı tanıyan otonom araç, göğüs röntgeninde tümörü işaretleyen radyoloji yazılımı, kasada barkod okumadan ürün bedelini hesaplayan market sistemi. Hepsinin altında aynı teknik altyapı yatar.

Bilgisayarlı Görü Nedir?
Bilgisayarlı görü (computer vision), dijital görüntülerden ve video akışlarından anlamlı bilgi çıkarmak için geliştirilen algoritmalar ve modeller bütünüdür. İnsan beyninin görme korteksini yazılımla taklit etmeye çalışır, ama yöntem oldukça farklıdır.
İnsan Gözü ile Makine Gözü Arasındaki Fark
İnsan gözü ışığı retinaya yansıtır; retinadan çıkan sinyaller görme korteksinde desen tanıma, nesne hafızası ve bağlam anlayışıyla birleşir. Bu süreç birkaç on milisaniye sürer ve milyonlarca yıllık evrimle şekillenmiştir.
Bir bilgisayar görüntüyü piksel matrisine dönüştürür: her piksel, kırmızı, yeşil ve mavi kanalında 0-255 arası bir değer taşır. Model bu sayı matrisindeki örüntüleri öğrenir. İnsan görüşünün anlamsal zenginliği yerine istatistiksel korelasyon kullanır. Aynı kedinin farklı ışıkta farklı görünmesi modeli yanıltabilirken insan beynini yanıltmaz.
Bilgisayarlı Görünün Kısa Tarihi
1960’larda Roberts könar tespiti algoritması ilk dijital görü çalışmaları arasındaydı. 1990’larda Viola-Jones yüz tespiti algoritması gerçek zamanlı uygulamaları mümkün kıldı. Asıl kırılma 2012’de geldi: AlexNet, ImageNet yarışmasını %15,3 hata oranıyla kazandı, önceki yöntemlerin hata oranı %26 civarındaydı. Bu fark derin öğrenmenin görü alanındaki baskınlığını yerleştirdi.
Bu kırılmanın ardından mimariler hızla gelişti: 2015’te ResNet, 2020’de ViT (Vision Transformer), 2023’te SAM (Segment Anything Model).
Piksel’den Karara: Nasıl Çalışır?
Ham piksel değerleri doğrudan anlamlı değildir. Süreç üç aşamadan geçer:
- Ön işleme: Görüntü yeniden boyutlandırılır, 0-1 aralığında normalleştirilir, renk uzayı dönüştürülür.
- Özellik çıkarma: CNN veya ViT katmanları kenar, köşe, doku ve şekil örüntülerini öğrenir.
- Karar: Sınıflandırma başlığı (classification head) öğrenilmiş özelliklere dayanarak kategori atar veya koordinat tahmin eder.

Temel Kavramlar: Sınıflandırma, Bounding Box ve Segmentasyon
Bilgisayarlı görü görevleri arasındaki fark yalnızca karmaşıklık değil, çıktı biçimidir de. Hangi problemi çözdüğünüzü bilmek doğru modeli seçmenizi doğrudan etkiler.
Görüntü Sınıflandırma (Image Classification)
En basit görev: görüntüye tek bir etiket atamak. “Bu fotoğrafta kedi mi var, köpek mi?” bu kategoriye girer. ResNet-50 ve EfficientNet-B4 bu alanda yaygın tercihlerdir. ImageNet’in 1000 sınıfı bu görevin standart kıyaslamasıdır.
Nesne Tespiti ve Bounding Box
Nesne tespiti nedir? Görüntüdeki her nesneyi sınıflandırıp konumunu bir dikdörtgen koordinatıyla (bounding box) belirtmek. Çıktı [x_min, y_min, x_max, y_max, class_id, confidence] biçimindedir.
Bounding box, nesnenin görüntüdeki konumunu tanımlayan, eksenle hizalanmış dikdörtgendir. YOLO, Faster R-CNN ve SSD bu çıktıyı üretir.
Semantik Segmentasyon vs Instance Segmentasyon
Segmentasyon, bounding box’ın bir adım ötesindedir: her piksele sınıf atar.
Semantik segmentasyonda tüm araçlar “araç” sınıfına girer ve bireysel örnekler ayrılmaz. Instance segmentasyonda her araç ayrı maske alır; yan yana iki araç farklı renklerde gösterilir.
Görüntü segmentasyonu, medikal görüntüleme gibi piksel düzeyinde hassasiyet gerektiren alanlarda zorunludur. Bounding box çözünürlüğü bu problemlerde yetersiz kalır.
CNN — Bilgisayarlı Görünün Beyni
Convolutional Neural Network (CNN), 1998’de LeCun’ın tasarladığı LeNet-5’ten bu yana modern bilgisayarlı görünün temel mimarisidir. Derin öğrenme tabanlı görü modellerinin neredeyse tamamı CNN katmanları içerir.
Konvolüsyon Katmanı Ne Yapar?
Konvolüsyon katmanı, küçük bir filtre (kernel) görüntü üzerinde kaydırarak her konumda nokta çarpımı hesaplar. 3x3’lük bir kenar tespiti filtresi yatay ya da dikey kenarları aktive eder; 5x5’lik bir filtre daha geniş yapıları yakalar.
Ağ derinleştikçe filtreler soyutlaşır. İlk katmanlar kenar ve renk geçişi, orta katmanlar doku ve şekil, son katmanlar “köpek burnu” ya da “araba tekeri” gibi anlam taşıyan örüntüler öğrenir.
Öne Çıkan CNN Mimarileri: ResNet, EfficientNet, MobileNet
| Mimari | Yıl | Parametre Sayısı | Öne Çıkan Yenilik |
|---|---|---|---|
| ResNet-50 | 2015 | 25 M | Artık bağlantılar (skip connections) |
| EfficientNet-B4 | 2019 | 19 M | Bileşik ölçekleme (compound scaling) |
| MobileNetV3 | 2019 | 5,4 M | Depthwise separable convolution, mobil cihaz odaklı |
| ConvNeXt-L | 2022 | 197 M | Transformer tasarım ilkelerini CNN’e taşıma |
Kaynak kısıtı varsa MobileNet; doğruluk öncelikliyse EfficientNet veya ConvNeXt tercih edilir.
Transfer Learning ile Hızlı Başlangıç
ImageNet üzerinde önceden eğitilmiş bir ResNet’i kendi veri kümenize uyarlamak, yalnızca son sınıflandırma katmanını değiştirip birkaç epoch eğitmek demektir. Sentetik veri ile zenginleştirilmiş küçük veri kümelerinde de iyi sonuç verir; genel özellik çıkarıcılar önceden öğrenilmiş durumdadır.
YOLO Nedir? Gerçek Zamanlı Nesne Tespiti
YOLO (You Only Look Once), 2015’te Redmon ve ekibinin yayımladığı mimarinin adıdır. Türkçesiyle “tek bakışta nesne tespiti”; isim, çalışma prensibini doğrudan özetler.
YOLO’nun Çalışma Prensibi: Tek Geçişte Tespit
Klasik nesne tespit algoritmalarında iki aşama vardır: önce nesne adayı bölgeler önerilir, sonra bu bölgeler sınıflandırılır. YOLO bu iki aşamayı tek bir sinir ağı geçişine sıkıştırır.
Görüntü S×S hücreye bölünür. Her hücre B adet bounding box tahmini ve her kutu için nesne güven skoru ile C sınıf olasılığı üretir. Tüm bu tahminler aynı anda hesaplanır; ağ yalnızca bir kez ileri yayılım yapar. RTX 4090 üzerinde YOLOv8n saniyede 300 çerçeveyi aşan hızda çalışır.

YOLOv5’ten YOLOv10’a: Sürümler Arası Farklar
| Sürüm | Yıl | Öne Çıkan Özellik |
|---|---|---|
| YOLOv5 | 2020 | PyTorch’a tam geçiş, geniş topluluk desteği |
| YOLOv7 | 2022 | E-ELAN mimarisi, o dönemde SOTA hız/doğruluk oranı |
| YOLOv8 (Ultralytics) | 2023 | Görev genişliği: tespit, segmentasyon, poz tahmini |
| YOLOv9 | 2024 | PGI ve GELAN: bilgi kaybını azaltmak için programlanabilir gradyan |
| YOLOv10 | 2024 | NMS kaldırıldı, çift atama öğrenimi |
Günümüz projelerinde YOLOv8, geniş topluluk ekosistemi nedeniyle hâlâ en yaygın tercihtir. Gerçek zamanlı uç cihaz uygulamaları için YOLOv10 değerlendirilebilir.
YOLO vs R-CNN Tabanlı Yöntemler
Faster R-CNN ve Mask R-CNN, iki aşamalı yapısı nedeniyle YOLO’dan daha yavaştır ama küçük nesnelerde genellikle daha başarılıdır. 30 FPS kamera akışı işlemek istiyorsanız YOLO; tıbbi görüntüde milimetre düzeyinde bölge hassasiyeti gerekiyorsa Faster R-CNN daha uygun bir başlangıç noktasıdır.
SAM (Segment Anything Model) — Evrensel Segmentasyon
Meta AI’ın 2023 Nisan’ında yayımladığı SAM, 11 milyar maskten oluşan SA-1B veri kümesi üzerinde eğitilmiştir. Daha önce görülmemiş nesne türlerini de segmentlere ayırabilir.
SAM’ın Mimarisi: ViT + Prompt Encoder + Mask Decoder
SAM üç bileşenden oluşur.
Image Encoder (ViT-H, 632 M parametre) görüntü özelliklerini yüksek boyutlu vektörlere dönüştürür. En ağır hesaplama bu bölümdedir, ama yalnızca bir kez çalışır. Prompt Encoder, nokta, kutu veya metin girdilerini aynı gömme uzayına (embedding space) taşır. Mask Decoder ise iki blokluk hafif bir transformer olup görüntü özelliklerini ve prompt gömmelerini birleştirerek maskeyi üretir.
Görüntüyü bir kez kodlayıp farklı prompt’larla birden fazla maske elde edebilirsiniz. Bu yapı SAM’ı interaktif uygulamalar için uygun kılar.
SAM 2: Video Segmentasyonu ve Gerçek Zamanlı Kullanım
Meta AI, Temmuz 2024’te SAM 2’yi duyurdu. Streaming memory encoder eklendi; model artık video karesindeki nesneyi bir sonraki kareye taşıyabiliyor. Hem görüntü hem videoda SAM’dan daha hızlı ve daha doğru çalışır, GPU gereksinimleri de daha düşüktür.
Prompt-Based Segmentasyon: Nokta, Kutu ve Metin Girdileri
SAM’ın en pratik özelliği prompt esnekliğidir. Bir piksel koordinatı (“burası nesne”), bir bounding box veya negatif nokta (“burası arka plan”) girerek farklı ayrıntı düzeyinde maskeler elde edebilirsiniz. CLIP ile birleştirildiğinde metin girdisi de (“köpek”) çalışır.
CLIP ve Vision Transformer (ViT) — Görü ile Dilin Buluşması
OpenAI’ın 2021’de yayımladığı CLIP ve Google’ın 2020’de tanıttığı ViT, bilgisayarlı görünün dil modelleriyle kesiştiği noktadır. Multimodal yapay zeka araştırmalarının büyük bölümü bu iki mimari üzerine kurulmuştur.
CLIP Nasıl Çalışır? Sıfır-Shot Görüntü Tanıma
CLIP (Contrastive Language-Image Pretraining), 400 milyon görüntü-metin çiftini karşıtsal kayıpla eğitir. Görüntü kodlayıcı ve metin kodlayıcı, eşleşen çiftlerin vektör uzayında birbirine yakın, eşleşmeyenlerin uzak olmasını öğrenir.
Eğitim sonrasında “bir köpek fotoğrafı” gibi açıklamalar vektöre dönüştürülüp görüntü vektörleriyle karşılaştırılır. Etiket verisi hiç kullanılmaz. CLIP bu yöntemle COCO ve ImageNet kıyaslamalarında güçlü sonuçlar verir.
ViT: Dikkat Mekanizması Görüntülere Uygulandığında
Transformer mimarisi metinleri token dizisi olarak işler; ViT aynı fikri görüntülere uygular. Görüntü 16x16 piksellik yamalar (patch) halinde kesilir, her yama bir token olarak ele alınır. Self-attention mekanizması uzak yamaların ilişkisini doğrudan hesaplar; CNN’deki yerel reseptif alan kısıtı yoktur.
Büyük veri kümelerinde ViT genellikle CNN’i geride bırakır; küçük veri kümesinde CNN’in tümevarımlı önyargısı daha iyi genelleme sağlar.
Multimodal Yapay Zeka’ya Açılan Kapı
CLIP ve ViT sınıflandırma araçları olmanın ötesinde embedding modeli olarak da kullanılır. GPT-4V ve Gemini görüntüleri bu tür kodlayıcılarla işler, ardından metin üretimine entegre eder.

Bilgisayarlı Görünün Kullanım Alanları
Tıp, üretim, güvenlik, ulaşım. Her sektör farklı doğruluk toleransı ve farklı model tercihi gerektirir.
Tıbbi Görüntüleme: Kanser Tespiti ve Radyoloji
FDA onaylı birçok radyoloji yazılımı CNN tabanlı modellerle çalışır. Google Health’in CXR modeli akciğer grafilerinde pnömoniyi radyologlarla benzer hassasiyette tespit eder. Özel eğitilmiş EfficientNet modelleri diyabetik retinopatisi retinal görüntüden erken aşamada belirler.
Düzenleyici uyum için veri gizliliği ve model açıklanabilirliği zorunludur. “Kara kutu” modeller bu yüzden GRAD-CAM gibi görselleştirme araçlarıyla desteklenir.
Otonom Araçlar: Şerit, İşaret ve Yaya Algılama
Tesla Autopilot ve Waymo kamera, lidar ve radar verilerini birleştirerek çalışır. Kamera bileşenlerinde YOLOv8 veya benzer türevler gerçek zamanlı nesne tespitini üstlenir; şerit takibi için anlamsal segmentasyon modelleri kullanılır.
Yağmur, sis ve gece gibi uç senaryolara karşı dayanıklılık için sentetik veri üreteçleri kritiktir. Bu koşullar gerçekte karşılaşılmadan simüle edilebilir.
Güvenlik: Yüz Tanıma ve Anomali Tespiti
Havalimanı güvenliğinde yüz tanıma, ArcFace ve CosFace gibi metrik öğrenme tabanlı modellerle çalışır. Mağaza içi kayıp önleme sistemleri kamera görüntüsünü analiz edip normalden sapan hareketleri uyarıya dönüştürür.
Biyometrik sistemlerde doğruluk kadar önyargı denetimi de önemlidir. Bazı modeller ten rengi ve cinsiyet açısından dengesiz hata oranları göstermiştir.
Üretim: Görsel Kalite Kontrol
Otomotiv, elektronik ve gıda sektöründe kusur tespiti modelleri konveyör bant görüntülerini milisaniyelerde analiz eder. PatchCore ve FastFlow gibi unsupervised yöntemler etiketli kusur verisi olmaksızın çalışır; nadir hata tiplerinin ayrıca etiketlenmesi gerekmez.
Sık Sorulan Sorular (FAQ)
YOLO ile gerçek zamanlı nesne tespiti yapılabilir mi?
YOLOv8n gibi hafif varyantlar modern bir GPU’da 300 FPS’i aşar. RTX 3060 gibi orta seviye bir GPU’da 1080p video için 60 FPS rahatlıkla ulaşılabilir bir değerdir. CPU’da çalışma hızı düşer, ama ONNX veya TensorRT formatıyla uç cihazlarda da gerçek zamanlı kullanım mümkündür.
SAM ve YOLO arasındaki temel fark nedir?
YOLO nesne tespiti için tasarlanmıştır: çıktısı sınıf etiketi ve bounding box. SAM segmentasyon içindir: çıktısı piksel düzeyinde maskedir. İkisi birlikte çalışabilir. YOLO’nun tespit ettiği nesnenin bounding box’ını SAM’a prompt olarak verirseniz hassas maske elde edersiniz.
Bilgisayarlı görü için GPU zorunlu mu?
Eğitim için pratik olarak evet; ResNet-50’yi CPU’da ImageNet’te eğitmek haftalar alır. Çıkarım için durum farklı: YOLOv8n, CPU üzerinde 640x640 görüntüde yaklaşık 40 ms gecikmeyle çalışır. Mobil uygulamalar için MobileNetV3 veya Apple Neural Engine, Raspberry Pi için TFLite modelleri tercih edilir.
Vision Transformer (ViT) CNN’den daha mı iyidir?
ImageNet-21K üzerinde önceden eğitilmiş büyük modellerde ViT genellikle CNN’i geride bırakır. Küçük veri kümesinde CNN’in tümevarımlı önyargısı daha iyi genelleme sağlar. DeiT ve Swin Transformer gibi hibrit mimariler her iki yaklaşımın avantajlarını birleştirir; üretim uygulamalarında bunlar sıkça tercih edilir.
Bilgisayarlı görü öğrenmek için hangi Python kütüphaneleri kullanılır?
PyTorch (torch + torchvision) derin öğrenme temeli için; OpenCV görüntü işleme ve kamera okuma için; Ultralytics YOLO ailesine erişim için; Hugging Face Transformers ViT ve CLIP modellerine ulaşmak için kullanılır. Başlangıç için Ultralytics’in beş satırla çalışan YOLOv8 API’si pratik bir giriş noktasıdır.