Multimodal RAG Nedir: Görsel ve PDF Verilerini LLM ile Sorgulama

editorial tech-magazine cover illustration about multimodal retrieval augmented generation

Şirketteki çeyrek raporu PDF olarak geliyor. İçinde tablolar, grafikler ve açıklama metinleri var. Klasik bir RAG sistemi bu PDF’i alır, metni çıkarır ve yalnızca yazılı kısımları indeksler. Tablo içindeki satır ilişkileri mi? Grafiğin gösterdiği trend mi? OCR’ın karıştırdığı sayılar mı? Bunlar ya eksik gelir ya da hatalı.

Gerçek dünyadaki veri büyük ölçüde metin değildir. Mimarlık projesindeki CAD çizimleri, hastane kayıtlarındaki röntgen görüntüleri, e-ticaret kataloglarındaki ürün fotoğrafları: bunların tamamı anlamın kritik bir bölümünü görsel formatta taşır. Temel RAG mimarisi bu veri türleriyle karşılaştığında yetersiz kalır; retrieval katmanına yalnızca metin girebildiği için görsel bağlam erişilemez hale gelir.

Multimodal RAG bu problemi doğrudan hedef alır. Metin dışındaki veri türlerini (görseller, PDF sayfaları, tablolar, ses transkripsiyonları) aynı retrieval pipeline’ına dahil eder. Kullanıcı soru sorduğunda sistem hem yazılı hem görsel kaynaklardan bilgi toplayarak modele iletir.

Multimodal RAG Nedir?

Multimodal RAG, metin tabanlı retrieval-augmented generation mimarisini görsel, tablo ve diğer modalitelere genişleten bir tasarım yaklaşımıdır. Klasik RAG yalnızca metin belgelerini işlerken, multimodal versiyonu farklı veri türlerini birlikte indexler ve sorgu anında birlikte getirir.

Desteklenen veri tipleri şu kategorilere girer:

Görsel: Fotoğraflar, diyagramlar, teknik çizimler, ürün resimleri
Belge sayfaları: Tablo, şekil ve metin içeren PDF sayfaları
Grafikler ve infografikler: Veri görselleştirmeleri, çubuk grafikler, dağılım grafikleri
Ses: Transkripsiyonla birlikte veya doğrudan ses embedding’i yoluyla

Klasik metin RAG ile karşılaştırma:

Özellik	Metin RAG	Multimodal RAG
Desteklenen modalite	Yalnızca metin	Metin + görsel + tablo
PDF işleme	OCR ile metin çıkarma	Sayfa görüntüsü olarak indexleme
Bilgi kaybı	Görsel bağlam kaybolur	Görsel bağlam korunur
Embedding boyutu	Nispeten küçük	Daha büyük (görsel vektörler)
Sorgu türü	Metin tabanlı	Metin veya görsel sorgu
İdeal senaryo	Saf metin belgeleri	Karışık içerikli dokümanlar

Bu yaklaşımın 2025-2026 döneminde hız kazanmasının arkasında iki somut gelişme var: görsel-metin embedding modellerinin olgunlaşması (CLIP, SigLIP, E5-V) ve GPT-4V, Claude 3, Gemini gibi vision-language modellerinin API üzerinden erişilebilir olması. İndeksleme tarafında görsel veriyi kodlayabilen modeller, yanıt üretme tarafında ise görsel bağlamı okuyabilen modeller bir araya gelince tam anlamıyla çalışan bir pipeline kurulabiliyor.

Nasıl Çalışır?

Multimodal RAG iki ana mimari yaklaşıma göre uygulanabilir.

Ayrı Encoder Yaklaşımı

Metin ve görsel veriler farklı encoderlar tarafından işlenir, ayrı indexlere yazılır. Sorgu geldiğinde her iki indexe paralel arama yapılır, sonuçlar birleştirilerek modele gönderilir.

Metin Belgesi → Metin Encoder (BGE-M3 vb.)  → Metin Index ──┐
Görsel / PDF   → Görsel Encoder (CLIP vb.)   → Görsel Index ─┤
                                                              ↓
        Sorgu → [Paralel Arama] → Birleştirilmiş Sonuçlar → LLM

Her encoder kendi modalitesinde optimize edilebildiği için arama kalitesi yüksek tutulabilir. Öte yandan metin ve görsel vektörler aynı geometrik uzayda yer almadığından birleştirme adımında ek bir düzineleme katmanı gerekebilir.

Birleşik Embedding Yaklaşımı

Hem metin hem görsel aynı vektör uzayına gömülür; tek bir index kullanılır. Sorgu türünden bağımsız olarak tüm modaliteler aynı havuzda aranır.

CLIP ve türevleri bu yaklaşımın en yaygın örnekleridir. “Kırmızı spor araba” ifadesi ve bir spor araba fotoğrafı, CLIP’in ortak uzayında birbirine yakın vektörler üretir; metin sorgusuyla görsel belge getirilebilir ya da görsel sorguyla metin belge bulunabilir.

Genel Akış

[İndeksleme]
Doküman → Modalite Tespiti → Encoder → Vektör DB

[Sorgulama]
Kullanıcı Sorusu → Sorgu Embedding
                        ↓
                  Vektör DB Araması
                        ↓
              Top-k Sonuçlar (metin + görsel)
                        ↓
               Vision-Language LLM
                        ↓
          Yanıt (kaynaklara atıfla)

Embedding modelleri bu mimarinin temelidir. Bir embedding modeli hem metni hem görseli aynı geometrik uzayda temsil edebildiğinde, farklı modaliteler arasında anlamlı karşılaştırma yapılabilir hale gelir.

ColPali: Sayfa Görüntüsü Olarak PDF

PDF belgelerini işlemek, multimodal RAG’ın en çetrefilli kısmıdır. Geleneksel yaklaşım şu zinciri izler: PDF → OCR → metin çıkarma → parçalama → embedding. Bu zincirin her adımında bilgi kaybolur. Tablo yapısı bozulabilir, grafikteki değerler anlamsız sayılara indirgenir, görsel düzen tümüyle silinir.

ColPali bu zinciri sıfırdan tasarlar. OCR yoktur. Her PDF sayfası doğrudan bir görsel olarak işlenir.

Mimarinin Temel Katmanları

ColPali iki katmana dayanır:

PaliGemma: Google’ın multimodal dil modeli. Sayfayı görsel olarak işler, içeriği metinsel açıklamaya gerek duymadan kavrar.
Late Interaction (ColBERT ilhamı): Sayfayı tek bir vektöre indirgemek yerine küçük “patch”lere böler, her patch için ayrı bir vektör üretir. Sorgu geldiğinde patch vektörleri ile sorgu vektörleri arasında max-similarity hesabı yapılır.

Bu yaklaşım, tablo içindeki belirli bir satırı ya da grafikteki belirli bir değeri bulmak için çok daha hassas bir retrieval sunar. “Tek vektör per belge” veya “tek vektör per chunk” stratejisinin gözden kaçırdığı granüler detaylar, patch-level temsille korunur.

byaldi ile Pratik Örnek

from byaldi import RAGMultiModalModel

# ColPali modelini yükle
model = RAGMultiModalModel.from_pretrained("vidore/colpali-v1.2")

# PDF'i sayfa görüntüsü olarak indexle
model.index(
    input_path="./finansal_rapor_2026.pdf",
    index_name="finansal_rapor",
    store_collection_with_index=True,
    overwrite=True
)

# Sorgu çalıştır
results = model.search("2025 yılı net kar marjı nedir?", k=3)

for r in results:
    print(f"Sayfa {r.page_num}: skor {r.score:.3f}")

ColPali, tablo ve grafik yoğun finansal raporlarda, teknik belgelerde ve slayt destelerinde metin tabanlı OCR yaklaşımına kıyasla belirgin bir fark yaratır. Tablodaki rakamlar, grafik etiketleri ve sayfa düzeni bilgisi bozulmadan sorgulanabilir hale gelir.

Agentic RAG mimarilerinde ColPali özellikle değerli: her sayfa bağımsız bir retrieval birimi olarak konumlandırıldığında, çok adımlı sorgularda ajan yalnızca işe yarar sayfaları seçip modele iletebilir, gereksiz bağlam taşımaz.

LlamaIndex ile Multimodal RAG Uygulaması

MultiModalVectorStoreIndex, hem metin hem görsel verileri aynı index yapısında tutar. LlamaIndex bu bileşeni merkeze alarak multimodal pipeline’ı birkaç satırla kurulabilir hale getirir.

Temel Kurulum

from llama_index.core import SimpleDirectoryReader
from llama_index.core.indices import MultiModalVectorStoreIndex
from llama_index.multi_modal_llms.openai import OpenAIMultiModal

# Belgeleri yükle — PDF ve görsel karışık dizin
documents = SimpleDirectoryReader(
    "./belgeler",
    required_exts=[".pdf", ".png", ".jpg"]
).load_data()

# Multimodal index oluştur
index = MultiModalVectorStoreIndex.from_documents(documents)

# GPT-4o vision tanımla
mm_llm = OpenAIMultiModal(model="gpt-4o", max_new_tokens=1500)

# Sorgu motoru
query_engine = index.as_query_engine(multi_modal_llm=mm_llm)

Finansal Rapor Senaryosu

response = query_engine.query(
    "2026 birinci çeyreğinde hangi ürün segmenti "
    "en yüksek büyüme oranını gösterdi? "
    "Grafikteki verilere dayanarak açıkla."
)
print(response)

GPT-4o veya LLaVA gibi vision-language modeller bu adımda hem metin bağlamını hem görsel içeriği birlikte işler. Grafikteki çubuklar, tablodaki sayılar ve dipnot metinleri tek bir tutarlı yanıtta birleşir.

GraphRAG ile karşılaştırıldığında: GraphRAG metin içindeki kavramsal ilişkileri güçlü biçimde modeller; multimodal RAG ise şematik ve görsel ilişkileri daha doğrudan korur. Ağırlıklı olarak dokümanlara dayalı bilgi tabanlarında ikisi tamamlayıcı roller üstlenir.

Kullanım Senaryoları

Hukuki Doküman Analizi

Sözleşmeler çoğunlukla yalnızca metin içermez. Şemalar, imzalı ekler, tablo formatında maddeler ve elle yazılmış notlar yer alır. Multimodal RAG, “Bu sözleşmenin 3. ekindeki sorumluluk limitini bul” gibi bir sorguyu hem metin kısmından hem tablo ve şema eklerinden birleşik olarak yanıtlar.

Tıbbi Görüntüleme ve Rapor Entegrasyonu

Radyoloji raporları ile röntgen veya MRI görüntüleri bir arada indexlenebilir. Hekim “Bu hastanın geçen yılki akciğer filmlerindeki değişimi raporla karşılaştır” dediğinde sistem hem görüntü hem rapor metnini birlikte getirir; iki farklı sistemde manuel arama yapma zorunluluğu ortadan kalkar.

E-ticaret Ürün Kataloğu

Ürün fotoğrafları, teknik veri sayfaları ve müşteri yorumları tek bir indexte tutulur. “Yüksek darbeli plastikten yapılmış, kırmızı renkte mevcut şanzıman kapağı var mı?” sorusu hem görsel hem metin retrieval’ı tetikler ve katalog içinde hem renk hem malzeme hem de ürün kategorisini birden filtreler.

Mühendislik Çizimleri ve Teknik Belgeler

Fabrika ekipmanlarının teknik çizimleri ile bakım kılavuzları birleştirilerek indexlenir. “Kompresör 4B’nin basınç tahliye valfinin konumu nerede?” sorusu teknik çizimden ve metin kılavuzdan birlikte yanıtlanır; bakım teknisyeni doğru parçayı kılavuzu sayfa sayfa taramadan bulabilir.

Zorluklar ve Sınırlamalar

Yüksek Depolama Maliyeti

Görsel vektörler, metin vektörlerine kıyasla önemli ölçüde daha büyük. ColPali’nin patch-level vektörleri bir sayfayı onlarca vektörle temsil eder. Binlerce sayfadan oluşan bir PDF koleksiyonu ciddi vektör veritabanı kapasitesi ister; depolama maliyeti baştan bütçelenmezse üretim ortamında sürpriz olabilir.

Retrieval Kalitesi Henüz Standart Değil

Metin RAG için RAGAS veya BEIR gibi yerleşik değerlendirme çerçeveleri mevcut. Multimodal RAG için bu standartlar hâlâ gelişme aşamasında. Hangi görsel retrieval kabul edilebilir, başarı eşiği ne: bu soruların cevabı proje özelinde belirlenmek zorunda; hazır bir kıyaslama tablosu yok.

Latency Artışı

Görsel vektörlerin üretilmesi ve aranması metin vektörlerine göre daha uzun sürer. Patch-level retrieval’da karşılaştırılacak vektör sayısı artar. Gerçek zamanlı uygulamalarda bu gecikme kabul edilemez bir düzeye ulaşabilir; retrieval stratejisinin mimari tasarım aşamasında ele alınması gerekir.

Görsel Yorumlamada Hallüsinasyon Riski

Vision-language modeller, belirsiz ya da düşük kaliteli görsellerde yanlış yorumlama yapabilir. “Grafikteki çizgi artıyor mu azalıyor mu?” sorusu bile model için yanıltıcı olabilir. Görsel bağlam ile metin bağlamının çeliştiği durumlarda hangi kaynağın önceliklendirileceği net değildir; bu belirsizliği yönetmek üretim sistemlerinde kritik bir tasarım kararı haline gelir.

Hangi Araçları Kullanmalısınız?

ColPali + Vespa / Qdrant

PDF ağırlıklı iş akışları için en pratik başlangıç noktası. Vespa, late-interaction vektörleri için native destek sunar; Qdrant ise multimodal projelerde giderek yaygınlaşan bir tercih. byaldi kütüphanesi ColPali’yi birkaç satırla projeye entegre etmeyi kolaylaştırır.

LlamaIndex MultiModal

Karışık içerikli belge setleri ve prototip projeleri için iyi bir seçenek. GPT-4o, LLaVA veya BakLLaVA gibi farklı vision-language modellerine geçiş yapmak kolaydır; framework değişikliği gerektirmez.

LangChain MultiQueryRetriever

Metin ağırlıklı ama aralıklı görsel içerik barındıran projelerde, mevcut bir LangChain pipeline’ına multimodal retrieval eklemek için uygun. Sıfırdan multimodal mimari kurmak yerine mevcut yapıyı genişletmek isteyenlere hitap eder.

Weaviate multi2vec

Metin, görsel ve video için birleşik embedding sunan multi2vec-clip modülü, üç modaliteyi aynı indexe yazan kullanıma hazır bir çözüm. Özellikle tek bir Weaviate instance’ında farklı veri tiplerini tutmak isteyen ekipler için tercih sebebi.

Multimodal RAG’ın Geleceği

Araştırma topluluğu “unified indexing” yönünde ilerliyor: tek bir modelin farklı modaliteleri ortak bir temsil uzayında kodlaması ve retrieval ile üretimin aynı mimari içinde bütünleşmesi. ColPali’nin patch-level yaklaşımı bu yönün erken bir işareti; ileride PDF sayfasının her köşesi, metin paragrafı gibi doğal bir retrieval birimi haline gelebilir.

Klasik RAG ne zaman yeterli, multimodal ne zaman gerekli? Veri setinde görsel bilginin anlam taşıdığı belgeler varsa, OCR zinciriyle başlamak hem zaman hem doğruluk açısından dezavantajlı. Sayfayı görsel olarak indexleyen bir pipeline baştan daha az karmaşıklık ve daha güvenilir sonuçlar sunar.

Multimodal RAG, belge anlama problemini yeniden tanımlıyor. Metin çıkarmak artık yeterli değil; sayfanın kendisi bir veri birimi. PDF’deki grafik, sözleşmedeki tablo, teknik çizimdeki konum: bunların tamamı sorgulanabilir bilgiye dönüşüyor.