list_altİçindekilerexpand_more

01Bilgisayarlı Görü Nedir?
02İnsan Gözü ile Makine Gözü Arasındaki Fark
03Bilgisayarlı Görünün Kısa Tarihi
04Piksel’den Karara: Nasıl Çalışır?
05Temel Kavramlar: Sınıflandırma, Bounding Box ve Segmentasyon
06Görüntü Sınıflandırma (Image Classification)
07Nesne Tespiti ve Bounding Box
08Semantik Segmentasyon vs Instance Segmentasyon
09CNN — Bilgisayarlı Görünün Beyni
10Konvolüsyon Katmanı Ne Yapar?
11Öne Çıkan CNN Mimarileri: ResNet, EfficientNet, MobileNet
12Transfer Learning ile Hızlı Başlangıç
13YOLO Nedir? Gerçek Zamanlı Nesne Tespiti
14YOLO’nun Çalışma Prensibi: Tek Geçişte Tespit
15YOLOv5’ten YOLOv10’a: Sürümler Arası Farklar
16YOLO vs R-CNN Tabanlı Yöntemler
17SAM (Segment Anything Model) — Evrensel Segmentasyon
18SAM’ın Mimarisi: ViT + Prompt Encoder + Mask Decoder
19SAM 2: Video Segmentasyonu ve Gerçek Zamanlı Kullanım
20Prompt-Based Segmentasyon: Nokta, Kutu ve Metin Girdileri
21CLIP ve Vision Transformer (ViT) — Görü ile Dilin Buluşması
22CLIP Nasıl Çalışır? Sıfır-Shot Görüntü Tanıma
23ViT: Dikkat Mekanizması Görüntülere Uygulandığında
24Multimodal Yapay Zeka’ya Açılan Kapı
25Bilgisayarlı Görünün Kullanım Alanları
26Tıbbi Görüntüleme: Kanser Tespiti ve Radyoloji
27Otonom Araçlar: Şerit, İşaret ve Yaya Algılama
28Güvenlik: Yüz Tanıma ve Anomali Tespiti
29Üretim: Görsel Kalite Kontrol
30Sık Sorulan Sorular (FAQ)
31YOLO ile gerçek zamanlı nesne tespiti yapılabilir mi?
32SAM ve YOLO arasındaki temel fark nedir?
33Bilgisayarlı görü için GPU zorunlu mu?
34Vision Transformer (ViT) CNN’den daha mı iyidir?
35Bilgisayarlı görü öğrenmek için hangi Python kütüphaneleri kullanılır?

Bilgisayarlı Görü Nedir? YOLO, SAM ve CNN (2026)

Bilgisayarlı görü, makinelerin fotoğraf ve videodan anlam çıkarmasını sağlayan yapay zeka dalıdır. Pratikte şöyle görünür: kamera görüntüsündeki yayayı tanıyan otonom araç, göğüs röntgeninde tümörü işaretleyen radyoloji yazılımı, kasada barkod okumadan ürün bedelini hesaplayan market sistemi. Hepsinin altında aynı teknik altyapı yatar.

futuristic computer vision system scanning a busy city street glowing cyan

Bilgisayarlı Görü Nedir?

Bilgisayarlı görü (computer vision), dijital görüntülerden ve video akışlarından anlamlı bilgi çıkarmak için geliştirilen algoritmalar ve modeller bütünüdür. İnsan beyninin görme korteksini yazılımla taklit etmeye çalışır, ama yöntem oldukça farklıdır.

İnsan Gözü ile Makine Gözü Arasındaki Fark

İnsan gözü ışığı retinaya yansıtır; retinadan çıkan sinyaller görme korteksinde desen tanıma, nesne hafızası ve bağlam anlayışıyla birleşir. Bu süreç birkaç on milisaniye sürer ve milyonlarca yıllık evrimle şekillenmiştir.

Bir bilgisayar görüntüyü piksel matrisine dönüştürür: her piksel, kırmızı, yeşil ve mavi kanalında 0-255 arası bir değer taşır. Model bu sayı matrisindeki örüntüleri öğrenir. İnsan görüşünün anlamsal zenginliği yerine istatistiksel korelasyon kullanır. Aynı kedinin farklı ışıkta farklı görünmesi modeli yanıltabilirken insan beynini yanıltmaz.

Bilgisayarlı Görünün Kısa Tarihi

1960’larda Roberts könar tespiti algoritması ilk dijital görü çalışmaları arasındaydı. 1990’larda Viola-Jones yüz tespiti algoritması gerçek zamanlı uygulamaları mümkün kıldı. Asıl kırılma 2012’de geldi: AlexNet, ImageNet yarışmasını %15,3 hata oranıyla kazandı, önceki yöntemlerin hata oranı %26 civarındaydı. Bu fark derin öğrenmenin görü alanındaki baskınlığını yerleştirdi.

Bu kırılmanın ardından mimariler hızla gelişti: 2015’te ResNet, 2020’de ViT (Vision Transformer), 2023’te SAM (Segment Anything Model).

Piksel’den Karara: Nasıl Çalışır?

Ham piksel değerleri doğrudan anlamlı değildir. Süreç üç aşamadan geçer:

Ön işleme: Görüntü yeniden boyutlandırılır, 0-1 aralığında normalleştirilir, renk uzayı dönüştürülür.
Özellik çıkarma: CNN veya ViT katmanları kenar, köşe, doku ve şekil örüntülerini öğrenir.
Karar: Sınıflandırma başlığı (classification head) öğrenilmiş özelliklere dayanarak kategori atar veya koordinat tahmin eder.

step-by-step diagram of a computer vision pipeline raw image flowing through preprocessing CNN

Temel Kavramlar: Sınıflandırma, Bounding Box ve Segmentasyon

Bilgisayarlı görü görevleri arasındaki fark yalnızca karmaşıklık değil, çıktı biçimidir de. Hangi problemi çözdüğünüzü bilmek doğru modeli seçmenizi doğrudan etkiler.

Görüntü Sınıflandırma (Image Classification)

En basit görev: görüntüye tek bir etiket atamak. “Bu fotoğrafta kedi mi var, köpek mi?” bu kategoriye girer. ResNet-50 ve EfficientNet-B4 bu alanda yaygın tercihlerdir. ImageNet’in 1000 sınıfı bu görevin standart kıyaslamasıdır.

Nesne Tespiti ve Bounding Box

Nesne tespiti nedir? Görüntüdeki her nesneyi sınıflandırıp konumunu bir dikdörtgen koordinatıyla (bounding box) belirtmek. Çıktı [x_min, y_min, x_max, y_max, class_id, confidence] biçimindedir.

Bounding box, nesnenin görüntüdeki konumunu tanımlayan, eksenle hizalanmış dikdörtgendir. YOLO, Faster R-CNN ve SSD bu çıktıyı üretir.

Semantik Segmentasyon vs Instance Segmentasyon

Segmentasyon, bounding box’ın bir adım ötesindedir: her piksele sınıf atar.

Semantik segmentasyonda tüm araçlar “araç” sınıfına girer ve bireysel örnekler ayrılmaz. Instance segmentasyonda her araç ayrı maske alır; yan yana iki araç farklı renklerde gösterilir.

Görüntü segmentasyonu, medikal görüntüleme gibi piksel düzeyinde hassasiyet gerektiren alanlarda zorunludur. Bounding box çözünürlüğü bu problemlerde yetersiz kalır.

CNN — Bilgisayarlı Görünün Beyni

Convolutional Neural Network (CNN), 1998’de LeCun’ın tasarladığı LeNet-5’ten bu yana modern bilgisayarlı görünün temel mimarisidir. Derin öğrenme tabanlı görü modellerinin neredeyse tamamı CNN katmanları içerir.

Konvolüsyon Katmanı Ne Yapar?

Konvolüsyon katmanı, küçük bir filtre (kernel) görüntü üzerinde kaydırarak her konumda nokta çarpımı hesaplar. 3x3’lük bir kenar tespiti filtresi yatay ya da dikey kenarları aktive eder; 5x5’lik bir filtre daha geniş yapıları yakalar.

Ağ derinleştikçe filtreler soyutlaşır. İlk katmanlar kenar ve renk geçişi, orta katmanlar doku ve şekil, son katmanlar “köpek burnu” ya da “araba tekeri” gibi anlam taşıyan örüntüler öğrenir.

Öne Çıkan CNN Mimarileri: ResNet, EfficientNet, MobileNet

Mimari	Yıl	Parametre Sayısı	Öne Çıkan Yenilik
ResNet-50	2015	25 M	Artık bağlantılar (skip connections)
EfficientNet-B4	2019	19 M	Bileşik ölçekleme (compound scaling)
MobileNetV3	2019	5,4 M	Depthwise separable convolution, mobil cihaz odaklı
ConvNeXt-L	2022	197 M	Transformer tasarım ilkelerini CNN’e taşıma

Kaynak kısıtı varsa MobileNet; doğruluk öncelikliyse EfficientNet veya ConvNeXt tercih edilir.

Transfer Learning ile Hızlı Başlangıç

ImageNet üzerinde önceden eğitilmiş bir ResNet’i kendi veri kümenize uyarlamak, yalnızca son sınıflandırma katmanını değiştirip birkaç epoch eğitmek demektir. Sentetik veri ile zenginleştirilmiş küçük veri kümelerinde de iyi sonuç verir; genel özellik çıkarıcılar önceden öğrenilmiş durumdadır.

YOLO Nedir? Gerçek Zamanlı Nesne Tespiti

YOLO (You Only Look Once), 2015’te Redmon ve ekibinin yayımladığı mimarinin adıdır. Türkçesiyle “tek bakışta nesne tespiti”; isim, çalışma prensibini doğrudan özetler.

YOLO’nun Çalışma Prensibi: Tek Geçişte Tespit

Klasik nesne tespit algoritmalarında iki aşama vardır: önce nesne adayı bölgeler önerilir, sonra bu bölgeler sınıflandırılır. YOLO bu iki aşamayı tek bir sinir ağı geçişine sıkıştırır.

Görüntü S×S hücreye bölünür. Her hücre B adet bounding box tahmini ve her kutu için nesne güven skoru ile C sınıf olasılığı üretir. Tüm bu tahminler aynı anda hesaplanır; ağ yalnızca bir kez ileri yayılım yapar. RTX 4090 üzerinde YOLOv8n saniyede 300 çerçeveyi aşan hızda çalışır.

technical diagram of YOLO object detection an image divided into a grid of cells

YOLOv5’ten YOLOv10’a: Sürümler Arası Farklar

Sürüm	Yıl	Öne Çıkan Özellik
YOLOv5	2020	PyTorch’a tam geçiş, geniş topluluk desteği
YOLOv7	2022	E-ELAN mimarisi, o dönemde SOTA hız/doğruluk oranı
YOLOv8 (Ultralytics)	2023	Görev genişliği: tespit, segmentasyon, poz tahmini
YOLOv9	2024	PGI ve GELAN: bilgi kaybını azaltmak için programlanabilir gradyan
YOLOv10	2024	NMS kaldırıldı, çift atama öğrenimi

Günümüz projelerinde YOLOv8, geniş topluluk ekosistemi nedeniyle hâlâ en yaygın tercihtir. Gerçek zamanlı uç cihaz uygulamaları için YOLOv10 değerlendirilebilir.

YOLO vs R-CNN Tabanlı Yöntemler

Faster R-CNN ve Mask R-CNN, iki aşamalı yapısı nedeniyle YOLO’dan daha yavaştır ama küçük nesnelerde genellikle daha başarılıdır. 30 FPS kamera akışı işlemek istiyorsanız YOLO; tıbbi görüntüde milimetre düzeyinde bölge hassasiyeti gerekiyorsa Faster R-CNN daha uygun bir başlangıç noktasıdır.

SAM (Segment Anything Model) — Evrensel Segmentasyon

Meta AI’ın 2023 Nisan’ında yayımladığı SAM, 11 milyar maskten oluşan SA-1B veri kümesi üzerinde eğitilmiştir. Daha önce görülmemiş nesne türlerini de segmentlere ayırabilir.

SAM’ın Mimarisi: ViT + Prompt Encoder + Mask Decoder

SAM üç bileşenden oluşur.

Image Encoder (ViT-H, 632 M parametre) görüntü özelliklerini yüksek boyutlu vektörlere dönüştürür. En ağır hesaplama bu bölümdedir, ama yalnızca bir kez çalışır. Prompt Encoder, nokta, kutu veya metin girdilerini aynı gömme uzayına (embedding space) taşır. Mask Decoder ise iki blokluk hafif bir transformer olup görüntü özelliklerini ve prompt gömmelerini birleştirerek maskeyi üretir.

Görüntüyü bir kez kodlayıp farklı prompt’larla birden fazla maske elde edebilirsiniz. Bu yapı SAM’ı interaktif uygulamalar için uygun kılar.

SAM 2: Video Segmentasyonu ve Gerçek Zamanlı Kullanım

Meta AI, Temmuz 2024’te SAM 2’yi duyurdu. Streaming memory encoder eklendi; model artık video karesindeki nesneyi bir sonraki kareye taşıyabiliyor. Hem görüntü hem videoda SAM’dan daha hızlı ve daha doğru çalışır, GPU gereksinimleri de daha düşüktür.

Prompt-Based Segmentasyon: Nokta, Kutu ve Metin Girdileri

SAM’ın en pratik özelliği prompt esnekliğidir. Bir piksel koordinatı (“burası nesne”), bir bounding box veya negatif nokta (“burası arka plan”) girerek farklı ayrıntı düzeyinde maskeler elde edebilirsiniz. CLIP ile birleştirildiğinde metin girdisi de (“köpek”) çalışır.

CLIP ve Vision Transformer (ViT) — Görü ile Dilin Buluşması

OpenAI’ın 2021’de yayımladığı CLIP ve Google’ın 2020’de tanıttığı ViT, bilgisayarlı görünün dil modelleriyle kesiştiği noktadır. Multimodal yapay zeka araştırmalarının büyük bölümü bu iki mimari üzerine kurulmuştur.

CLIP Nasıl Çalışır? Sıfır-Shot Görüntü Tanıma

CLIP (Contrastive Language-Image Pretraining), 400 milyon görüntü-metin çiftini karşıtsal kayıpla eğitir. Görüntü kodlayıcı ve metin kodlayıcı, eşleşen çiftlerin vektör uzayında birbirine yakın, eşleşmeyenlerin uzak olmasını öğrenir.

Eğitim sonrasında “bir köpek fotoğrafı” gibi açıklamalar vektöre dönüştürülüp görüntü vektörleriyle karşılaştırılır. Etiket verisi hiç kullanılmaz. CLIP bu yöntemle COCO ve ImageNet kıyaslamalarında güçlü sonuçlar verir.

ViT: Dikkat Mekanizması Görüntülere Uygulandığında

Transformer mimarisi metinleri token dizisi olarak işler; ViT aynı fikri görüntülere uygular. Görüntü 16x16 piksellik yamalar (patch) halinde kesilir, her yama bir token olarak ele alınır. Self-attention mekanizması uzak yamaların ilişkisini doğrudan hesaplar; CNN’deki yerel reseptif alan kısıtı yoktur.

Büyük veri kümelerinde ViT genellikle CNN’i geride bırakır; küçük veri kümesinde CNN’in tümevarımlı önyargısı daha iyi genelleme sağlar.

Multimodal Yapay Zeka’ya Açılan Kapı

CLIP ve ViT sınıflandırma araçları olmanın ötesinde embedding modeli olarak da kullanılır. GPT-4V ve Gemini görüntüleri bu tür kodlayıcılarla işler, ardından metin üretimine entegre eder.

CLIP architecture diagram two parallel encoders image encoder on left text encoder on right

Bilgisayarlı Görünün Kullanım Alanları

Tıp, üretim, güvenlik, ulaşım. Her sektör farklı doğruluk toleransı ve farklı model tercihi gerektirir.

Tıbbi Görüntüleme: Kanser Tespiti ve Radyoloji

FDA onaylı birçok radyoloji yazılımı CNN tabanlı modellerle çalışır. Google Health’in CXR modeli akciğer grafilerinde pnömoniyi radyologlarla benzer hassasiyette tespit eder. Özel eğitilmiş EfficientNet modelleri diyabetik retinopatisi retinal görüntüden erken aşamada belirler.

Düzenleyici uyum için veri gizliliği ve model açıklanabilirliği zorunludur. “Kara kutu” modeller bu yüzden GRAD-CAM gibi görselleştirme araçlarıyla desteklenir.

Otonom Araçlar: Şerit, İşaret ve Yaya Algılama

Tesla Autopilot ve Waymo kamera, lidar ve radar verilerini birleştirerek çalışır. Kamera bileşenlerinde YOLOv8 veya benzer türevler gerçek zamanlı nesne tespitini üstlenir; şerit takibi için anlamsal segmentasyon modelleri kullanılır.

Yağmur, sis ve gece gibi uç senaryolara karşı dayanıklılık için sentetik veri üreteçleri kritiktir. Bu koşullar gerçekte karşılaşılmadan simüle edilebilir.

Güvenlik: Yüz Tanıma ve Anomali Tespiti

Havalimanı güvenliğinde yüz tanıma, ArcFace ve CosFace gibi metrik öğrenme tabanlı modellerle çalışır. Mağaza içi kayıp önleme sistemleri kamera görüntüsünü analiz edip normalden sapan hareketleri uyarıya dönüştürür.

Biyometrik sistemlerde doğruluk kadar önyargı denetimi de önemlidir. Bazı modeller ten rengi ve cinsiyet açısından dengesiz hata oranları göstermiştir.

Üretim: Görsel Kalite Kontrol

Otomotiv, elektronik ve gıda sektöründe kusur tespiti modelleri konveyör bant görüntülerini milisaniyelerde analiz eder. PatchCore ve FastFlow gibi unsupervised yöntemler etiketli kusur verisi olmaksızın çalışır; nadir hata tiplerinin ayrıca etiketlenmesi gerekmez.

Sık Sorulan Sorular (FAQ)

YOLO ile gerçek zamanlı nesne tespiti yapılabilir mi?

YOLOv8n gibi hafif varyantlar modern bir GPU’da 300 FPS’i aşar. RTX 3060 gibi orta seviye bir GPU’da 1080p video için 60 FPS rahatlıkla ulaşılabilir bir değerdir. CPU’da çalışma hızı düşer, ama ONNX veya TensorRT formatıyla uç cihazlarda da gerçek zamanlı kullanım mümkündür.

SAM ve YOLO arasındaki temel fark nedir?

YOLO nesne tespiti için tasarlanmıştır: çıktısı sınıf etiketi ve bounding box. SAM segmentasyon içindir: çıktısı piksel düzeyinde maskedir. İkisi birlikte çalışabilir. YOLO’nun tespit ettiği nesnenin bounding box’ını SAM’a prompt olarak verirseniz hassas maske elde edersiniz.

Bilgisayarlı görü için GPU zorunlu mu?

Eğitim için pratik olarak evet; ResNet-50’yi CPU’da ImageNet’te eğitmek haftalar alır. Çıkarım için durum farklı: YOLOv8n, CPU üzerinde 640x640 görüntüde yaklaşık 40 ms gecikmeyle çalışır. Mobil uygulamalar için MobileNetV3 veya Apple Neural Engine, Raspberry Pi için TFLite modelleri tercih edilir.

Vision Transformer (ViT) CNN’den daha mı iyidir?

ImageNet-21K üzerinde önceden eğitilmiş büyük modellerde ViT genellikle CNN’i geride bırakır. Küçük veri kümesinde CNN’in tümevarımlı önyargısı daha iyi genelleme sağlar. DeiT ve Swin Transformer gibi hibrit mimariler her iki yaklaşımın avantajlarını birleştirir; üretim uygulamalarında bunlar sıkça tercih edilir.

Bilgisayarlı görü öğrenmek için hangi Python kütüphaneleri kullanılır?

PyTorch (torch + torchvision) derin öğrenme temeli için; OpenCV görüntü işleme ve kamera okuma için; Ultralytics YOLO ailesine erişim için; Hugging Face Transformers ViT ve CLIP modellerine ulaşmak için kullanılır. Başlangıç için Ultralytics’in beş satırla çalışan YOLOv8 API’si pratik bir giriş noktasıdır.