Vision Language Model (VLM) Nedir? CLIP'ten LLaVA'ya

GPT-4o’ya bir fatura fotoğrafı attığınızda ne olur? Model görüntüdeki metni okur, tarihi tespit eder, toplam tutarı hesaplar ve gerekirse sizi vergi döneminden önce uyarır. Peki bunu mümkün kılan mimari ne?

Büyük dil modelleri metin üzerinde güçlü. Ama görüntüler için pikseller başlı başına bir anlam taşımaz; onları modelin anlayabileceği bir temsile dönüştürmek gerekir. Bu boşluğu kapatan mimari ailesi vision language model (VLM) adını alıyor.

VLM, hem görüntüyü hem metni anlayan ve ikisi arasında akıl yürütebilen model demek. 2026 itibarıyla GPT-4o’nun belge anlama yeteneği, Claude’un ekran okuma becerisi ve düzinelerce açık kaynak alternatif bu mimariye dayanıyor. Endüstriyel otomasyon, tıbbi görüntüleme ve e-ticaret başta olmak üzere pek çok alanda talep hızla büyüyor.

Editorial tech-magazine cover illustration about vision language models and visual AI understanding, a glowing neural eye merging with flowing text streams and geometric image grids, abstract artificial-intelligence motifs (glowing neural networks, flowing data, subtle circuitry), sophisticated modern concept art, clean balanced composition, soft cinematic studio lighting, rich depth of field, premium color grading in deep navy blues with cyan and magenta accents, highly detailed, polished editorial 8k. No text, no words, no letters, no captions, no logos, no watermark, no UI.

VLM Nedir? Temel Tanım

Vision language model, görsel ve dil modalitelerini bir arada işleyerek metin tabanlı yanıtlar üretebilen model ailesidir.

Geleneksel bir LLM yalnızca token dizileri alır; görüntüyü doğrudan kabul edemez. VLM, bu kısıtlamayı aşmak için üç bileşenden oluşur:

Vision Encoder: Görüntüyü bir dizi sayısal vektöre dönüştürür. Bu bileşende genellikle Vision Transformer (ViT) kullanılır. ViT, görüntüyü eşit büyüklükte patch’lere böler, her birini ayrı bir token gibi ele alır ve transformer katmanlarından geçirir.
Language Model (LLM): Görsel temsili ve metni birlikte işleyip yanıt üretir. Bu, standart bir büyük dil modelidir; tek farkı görsel tokenları da kabul edebilmesidir.
Connector / Projector: Vision encoder’ın çıktısını LLM’nin beklediği token uzayına uyarlar. Bu katman çoğu mimaride ince ama kritik bir köprüdür; görüntü temsillerini dil modeline anlamlı biçimde aktarmak burada gerçekleşir.

Bu üç bileşenin birlikte çalışması, modelin görsel soru-cevap (VQA), görüntü açıklama (image captioning), optik karakter tanıma (OCR), grafik anlama ve video yorumlama gibi görevleri yerine getirmesini olanaklı kılar.

VLM’leri multimodal yapay zeka ailesinin bir üyesi olarak düşünmek doğru, ama ayrımı net koymak gerekiyor: çok modaliteli modeller ses, video ve sensör verisini de kapsayabilir. VLM ise özellikle görüntü-metin çiftleri üzerine uzmanlaşmış bir alt ailedir; daha dar ama çok daha olgun bir altyapıya sahip.

CLIP: Contrastive Learning ile Görsel-Metin Hizalaması

Modern VLM tarihini 2021 başında OpenAI’ın yayımladığı CLIP (Contrastive Language-Image Pre-training) çalışmasından başlatmak doğru.

CLIP’in fikri basit ama etkili: internetten toplanan 400 milyon görüntü-metin çiftini kullanarak iki ayrı encoder’ı aynı anda eğitmek. Biri görüntüyü, diğeri metni vektöre dönüştürür. Eğitim hedefi, eşleşen çiftlerin vektörlerini birbirine yaklaştırmak, eşleşmeyen çiftlerin vektörlerini ise uzaklaştırmak.

Buna contrastive pre-training denir. Bir mini-batch içinde N görüntü ve N metin varsa, model N doğru çifti N² olasılık içinden bulmaya çalışır. Bu süreç, her iki encoder’ı da görseller ile dil arasındaki anlamsal yapıyı öğrenmeye zorlar. Bir “çöl güneşi” fotoğrafı ile “desert sunset” metni, eğitim sonunda birbirine yakın vektörlere karşılık gelir. “Mutfak” fotoğrafı ile aynı metin ise birbirinden uzak kalır.

CLIP’in en dikkat çekici özelliği, hiç görmediği kategorileri sıfırdan sınıflandırabilmesidir. “Bu görselde kedi mi köpek mi var?” sorusunu, o kategorileri etiketli veri olmadan yanıtlayabilir; yalnızca metin tanımlarını kullanır. Zero-shot öğrenme bağlamında bu, etiket bazlı klasik yaklaşımlara göre ciddi bir esneklik farkı yaratır. Yeni kategoriler için ayrıca veri toplamaya gerek kalmaz.

CLIP’in kalıcı bir başka etkisi, vision encoder olarak sonraki neredeyse tüm VLM’lere entegre edilmesidir. LLaVA’dan InternVL’e kadar büyük çoğunluğu başlangıç noktası olarak CLIP ViT kullanır ya da CLIP’ten ilham alan contrastive pre-trained encoder’larla çalışır. Temel görsel-metin hizalamasını yeniden eğitmek yerine CLIP ağırlıklarından başlamak, hem zaman hem hesaplama maliyeti açısından avantajlı.

LLaVA: Açık Kaynak VLM Mimarisi

2023 yılında Wisconsin-Madison ve Microsoft araştırmacıları tarafından yayımlanan LLaVA (Large Language and Vision Assistant), açık kaynak VLM ekosistemine net bir referans noktası koydu.

LLaVA’nın temel fikri, mevcut güçlü bileşenleri bir connector ile birleştirmekti. Büyük ölçekli görüntü-metin verisiyle sıfırdan eğitmek yerine CLIP ve Vicuna gibi önceden eğitilmiş modelleri bir araya getirmek, hem maliyeti düşürdü hem de iyi sonuçlar verdi. Mimari üç parçadan oluşur:

CLIP ViT-L/14: Görüntüyü patch’lere böler ve her birini bir vektöre dönüştürür. 224×224 piksel bir görüntü, bu bileşenden çıktığında 256 boyutlu token dizisine dönüşür.
Linear Projection Layer: CLIP çıktılarını LLM’nin beklediği boyuta maplar. İlk versiyonda tek katmanlı doğrusal dönüşüm yeterliydi; bu bileşen eğitimde hızla öğrenir.
LLM (Vicuna/Llama): Görsel tokenlar ve metin girdisiyle birlikte yanıt üretir. Görsel tokenlar metin tokenlarıyla birleştirilir, model bunları ayırt etmeden işler.

LLaVA 1.5 ile connector katmanı iki katmanlı MLP’ye (Multi-Layer Perceptron) yükseltildi; bağlam kapasitesi ve görsel anlama doğruluğu belirgin biçimde arttı. LLaVA-NeXT ise yüksek çözünürlüklü görüntü desteğiyle geldi: büyük görüntüyü dörtlü grid’e bölerek her parçayı ayrı işler, sonra birleştirir. Bu yaklaşım, küçük yazılar veya ince grafiksel detaylar içeren görsellerde kayıpları azaltır.

LLaVA’nın açık ağırlıklarla yayımlanması, araştırma topluluğunun kendi ihtiyaçlarına göre model üretmesini kolaylaştırdı. Tıbbi görüntülemeden hukuk belgelerine, harita anlama görevlerinden e-ticarete kadar pek çok alanda fine-tuned türevler hızla çoğaldı. Günümüzde LLaVA mimarisi, pek çok ticari ve araştırma modelinin hareket noktasıdır.

Modern VLM’ler: 2026 Kısa Rehber

LLaVA’nın mimarisi bir şablon oluşturdu. 2024-2026 arasında onlarca model bu şablonun üzerine yeni özellikler ekledi.

InternVL 2.5 (Shanghai AI Lab): Yüksek çözünürlük desteği ve OCR gücüyle öne çıkıyor. Fatura, sözleşme, tablo gibi doküman anlama görevlerinde akademik benchmark’larda tutarlı üst sıralarda yer alıyor. Türkçe dahil çok dilli desteği var. Dynamic resolution adını verdikleri yaklaşım, görüntü boyutuna göre patch sayısını otomatik ayarlıyor.

PaliGemma (Google): Küçük parametre sayısına rağmen çok görevli performans sunuyor. Captioning, VQA ve segmentation gibi görevleri tek model altında birleştirmesi araştırma ekipleri için onu pratik bir başlangıç noktasına dönüştürüyor. PaliGemma 2’de Gemma 2 dil modeli backbone’u kullanılmış; dokümantasyon kalitesi yüksek.

Qwen-VL (Alibaba): Çince-İngilizce-görsel üçlüsünde güçlü. Özellikle Asya pazarında doküman anlama ve e-ticaret uygulamaları için kullanılıyor. Qwen2.5-VL serisi video anlama ve ince ayrıntı tespitinde güncel benchmark’larda öne çıkıyor; uzun video bağlamını işleme kapasitesi dikkat çekici.

Phi-3 Vision / Phi-4 Vision (Microsoft): 4-14 milyar parametre aralığında, tüketici donanımında çalışabilen modeller. Küçük dil modeli araştırmasının bir devamı olan bu seri, kaynak kısıtlı ortamlarda dağıtım için iyi bir seçenek. OCR ve tablo anlama görevlerinde boyutunun ötesinde performans gösteriyor.

GPT-4o ve Claude’un vision katmanı: Kapalı kaynak olduklarından iç mimari paylaşılmıyor, ama aynı temel prensip geçerli: vision encoder + connector + güçlü LLM. Bu modelleri kıyaslamak API üzerinden mümkün, ancak bileşenlerini ayrıştırmak değil.

Model	Geliştirici	Parametre	Güçlü Yön
InternVL 2.5	Shanghai AI Lab	2B-78B	OCR, çok dilli doküman
PaliGemma 2	Google	3B-28B	Çok görevli, araştırma
Qwen2.5-VL	Alibaba	3B-72B	Video, Çince-İngilizce
Phi-4 Vision	Microsoft	~4B	Kaynak kısıtlı dağıtım
LLaVA-OneVision	Wisconsin-Madison / ByteDance	7B-72B	Açık kaynak referans

Hangi modeli seçmek gerekir? Model boyutu, dil desteği ve hedef görev belirleyici. Doküman ve fatura işleme için InternVL; araştırma prototipleri için LLaVA; kaynak kısıtlı dağıtım için Phi; Çince yoğun iş yüklerinde Qwen öne çıkıyor.

VLM Eğitimi: Aşamalar

Aşama 1: Görsel-metin hizalaması. Bu aşamada vision encoder’ın ağırlıkları dondurulur; yalnızca connector katmanı eğitilir. Hedef, görsel temsilleri LLM’nin anladığı token uzayına hizalamak. Veri olarak CC3M, LAION gibi büyük görüntü-metin arşivleri kullanılır; görev basit captioning üzerine kuruludur. Bu aşama nispeten kısa sürer ve ucuzdur; çünkü frozen encoder üzerinde yalnızca küçük bir projeksiyon katmanı güncellenir.

Aşama 2: Instruction tuning. Tüm model ya da büyük bir kısmı, instruction-following verisiyle ince ayar yapılır. “Bu görüntüdeki nesneyi tanımla”, “Bu tablodaki hangi değer daha büyük?” gibi soru-cevap çiftleri modeli gerçek kullanım senaryolarına hazırlar. Instruction tuning bu aşamada hem modelin uyumunu hem de yanıt kalitesini doğrudan etkiler. Veri kalitesi nicelikten çok daha belirleyici; binlerce yüksek kaliteli çift, milyonlarca gürültülü örnekten üstün performans verebilir.

Değerlendirme aşamasında sektörde yaygınlaşan benchmark’lar şunlar: VQAv2 (görsel soru-cevap), TextVQA (metinsel içerikli görseller), MMBench (çok boyutlu yetenek testi), OCRBench (optik karakter tanıma kalitesi) ve DocVQA (doküman anlama). Her benchmark farklı bir yetkinliği ölçtüğünden, modeli tek bir skora indirgemek yanıltıcı; görev tipine göre doğru benchmark seçmek gerekiyor.

Eğitim maliyeti model boyutuna ve veri ölçeğine göre büyük farklılıklar gösterir. PaliGemma gibi küçük modeller birkaç günde eğitilirken büyük ticari modeller için bu süre haftalara uzayabilir. Açık kaynak modellerin önemli avantajı, domain-specific fine-tuning’i makul bütçelerle yapılabilir kılması.

Kullanım Alanları

Görsel soru-cevap ve analitik: Satış grafiklerini, dashboard ekran görüntülerini veya araştırma makalelerindeki tabloları metin sorusuyla sorgulamak. “Bu grafikte en yüksek değer hangi çeyrekte?” gibi sorular, VQA yetenekli bir VLM için doğrudan yanıtlanabilir. İş zekası raporlamada bu kullanım giderek yaygınlaşıyor.

Document AI: Fatura, sözleşme, makbuz ve form anlama. Geleneksel OCR çözümleri metni çıkarabilir ama anlamı yorumlayamaz. VLM ise hem metni hem de belgedeki yapısal düzeni birlikte işleyerek “bu fatura vadesi geçmiş mi?” ya da “sözleşmedeki ceza maddesi hangisi?” gibi sorulara yanıt verebilir. Büyük hukuk ve finans şirketleri bu alanda pilot projeler yürütüyor.

Tıbbi görüntüleme: Radyoloji raporlarının otomasyonu, patoloji slaytlarındaki anormal hücre tespiti. Model, röntgen veya MRI görüntüsüyle birlikte klinik bulguları içeren metin üretebilir. Bu uygulama hâlâ klinik onay süreçlerinden geçiyor, ama araştırma düzeyindeki doğruluk oranları beklentileri karşılıyor. Radyolog iş yükünü azaltmak, acil servis triajını hızlandırmak gibi hedeflerle çalışmalar sürüyor.

Otonom sürüş ve saha robotları: Çevresel sahne anlama ve nesne sınıflandırma. Araç kamerasından gelen görüntülerde yaya, trafik işareti ve yol koşullarını tanımak için kullanılıyor. Yüksek frekanslı gerçek zamanlı işlem hâlâ zorlu, ama sistemlerin semantik anlama katmanında VLM’ler yer alıyor.

E-ticaret: Ürün fotoğrafından otomatik açıklama, kategori ve etiket üretimi. Büyük katalog yönetiminde insan çalışma süresini ciddi ölçüde kısaltan pratik bir uygulama. Yüzlerce binlik ürün kataloğunu haftalar yerine saatler içinde işlemek mümkün.

Ekran görüntüsünden kod üretimi: Bir UI tasarımının ekran görüntüsünü vererek React veya Flutter kodu istemek. Ticari araçlar bu özelliği zaten sunuyor; açık kaynak alternatifleri de hızla olgunlaşıyor. Figma’dan doğrudan kullanılabilir bileşen kodu üretmek bu yaklaşımın doğal uzantısı.

VLM’lerin Sınırlılıkları

Halüsinasyon: Modeller, görüntüde olmayan nesneleri veya metinleri aktarabilir. Bir faturada yer almayan bir satırı raporlamak ya da bir grafikte bulunmayan bir trendi yorumlamak, VLM halüsinasyonunun tipik örnekleri. Yapay zeka halüsinasyonu metin modellerinde de var; VLM’lerde görsel modalite bu riski katlar çünkü modelin neyi “gördüğünü” doğrudan test etmek güçleşir. Özellikle yoğun metin içeren görüntülerde bu sorun belirginleşiyor.

Spatial reasoning zayıflığı: “Soldaki nesneden iki sağdaki nesne nedir?” ya da “Bu kutunun koordinatlarını piksel cinsinden ver” gibi uzamsal sorular çoğu VLM için zorlayıcı. Nesneler arası ilişkileri ve konumsal mantığı işlemek, saf metin mantığından farklı bir yetenek gerektiriyor. Grounding modelleriyle (DINO, SAM) entegrasyon bu soruna kısmi çözüm sunuyor.

Hesaplama maliyeti: Görüntüyü patch’lere bölerek token olarak işlemek, saf metin modellerine kıyasla bağlam penceresini hızla doldurur. 1024×1024 piksel bir görüntü, model konfigürasyonuna bağlı olarak 256-4096 token tüketebilir. Yüksek çözünürlük ve uzun metin bağlamının aynı anda kullanılması hem bellek hem işlem süresi açısından pahalı.

Eğitim verisi kalitesi: Görüntü-metin hizalaması için annotation kalitesi kritik, ama büyük ölçekli yüksek kaliteli çift veri üretmek pahalı ve emek yoğun. Pek çok model gürültülü web verisiyle eğitildiğinden ince nüanslarda hata yapabiliyor. Kültürel ve dil çeşitliliği açısından da veri dengesizlikleri mevcut; Türkçe gibi kaynak-fakir dillerde performans genellikle İngilizce’ye göre daha düşük kalıyor.

VLM’lerin Geleceği

Video anlama: Statik görüntüden çok kareye geçiş. Temporal tutarlılık, zaman içinde nesneleri takip etmek ve sahne değişikliklerini algılamak zorlu ama büyük talebin olduğu alan. Qwen2.5-VL ve InternVL’in son sürümleri video token’larını da destekliyor. Uzun video bağlamını verimli işlemek, bir sonraki kritik bariyer olarak görünüyor.

Agentic vision: VLM’lerin araç çağırma döngüleri içine entegrasyonu. Model bir ekran görüntüsüne bakıp hangi butona tıklamak gerektiğine kendi başına karar verebiliyor; bu bilgisayar kullanma (computer use) görevlerinde temel bileşen. Karmaşık iş akışlarını görsel geri bildirimle yönetmek, otomasyon potansiyelini artırıyor.

Grounding ve lokalizasyon: Sadece “ne var?” değil, “nerede ve ne?” sorusunu piksel düzeyinde yanıtlamak. Bounding box tahmini ve segmentasyon maskesi üretimi bu yönde ilerliyor. SAM 2 ile entegrasyon, video segmentasyonunu gerçek zamanlı hale getiriyor.

Verimlilik: Flash attention gibi optimizasyonlar token işleme maliyetini düşürüyor. Görüntü token’larını dinamik olarak sıkıştırmak ya da düşük-çözünürlük ile yüksek-çözünürlük aşamalarını hibrit kullanmak, hesaplama-doğruluk dengesini iyileştirmeye yönelik aktif araştırma alanları.

Pratik bir başlangıç için şu yol haritası işe yarıyor: proje yerel çalıştırma gerektiriyorsa LLaVA veya Phi ailesine bakın; doküman AI öncelikliyse InternVL değerlendirin; yüksek kaliteli API tabanlı çözüm istiyorsanız GPT-4o ve Claude mevcut en güçlü seçenekler. Her birinin performansı görev tipine göre farklılaşır; kendi benchmark’ınızı kısa bir PoC ile kurmak zaman kazandırır ve gereksiz göç maliyetinin önüne geçer.