
Şirketteki çeyrek raporu PDF olarak geliyor. İçinde tablolar, grafikler ve açıklama metinleri var. Klasik bir RAG sistemi bu PDF’i alır, metni çıkarır ve yalnızca yazılı kısımları indeksler. Tablo içindeki satır ilişkileri mi? Grafiğin gösterdiği trend mi? OCR’ın karıştırdığı sayılar mı? Bunlar ya eksik gelir ya da hatalı.
Gerçek dünyadaki veri büyük ölçüde metin değildir. Mimarlık projesindeki CAD çizimleri, hastane kayıtlarındaki röntgen görüntüleri, e-ticaret kataloglarındaki ürün fotoğrafları: bunların tamamı anlamın kritik bir bölümünü görsel formatta taşır. Temel RAG mimarisi bu veri türleriyle karşılaştığında yetersiz kalır; retrieval katmanına yalnızca metin girebildiği için görsel bağlam erişilemez hale gelir.
Multimodal RAG bu problemi doğrudan hedef alır. Metin dışındaki veri türlerini (görseller, PDF sayfaları, tablolar, ses transkripsiyonları) aynı retrieval pipeline’ına dahil eder. Kullanıcı soru sorduğunda sistem hem yazılı hem görsel kaynaklardan bilgi toplayarak modele iletir.
Multimodal RAG Nedir?
Multimodal RAG, metin tabanlı retrieval-augmented generation mimarisini görsel, tablo ve diğer modalitelere genişleten bir tasarım yaklaşımıdır. Klasik RAG yalnızca metin belgelerini işlerken, multimodal versiyonu farklı veri türlerini birlikte indexler ve sorgu anında birlikte getirir.
Desteklenen veri tipleri şu kategorilere girer:
- Görsel: Fotoğraflar, diyagramlar, teknik çizimler, ürün resimleri
- Belge sayfaları: Tablo, şekil ve metin içeren PDF sayfaları
- Grafikler ve infografikler: Veri görselleştirmeleri, çubuk grafikler, dağılım grafikleri
- Ses: Transkripsiyonla birlikte veya doğrudan ses embedding’i yoluyla
Klasik metin RAG ile karşılaştırma:
| Özellik | Metin RAG | Multimodal RAG |
|---|---|---|
| Desteklenen modalite | Yalnızca metin | Metin + görsel + tablo |
| PDF işleme | OCR ile metin çıkarma | Sayfa görüntüsü olarak indexleme |
| Bilgi kaybı | Görsel bağlam kaybolur | Görsel bağlam korunur |
| Embedding boyutu | Nispeten küçük | Daha büyük (görsel vektörler) |
| Sorgu türü | Metin tabanlı | Metin veya görsel sorgu |
| İdeal senaryo | Saf metin belgeleri | Karışık içerikli dokümanlar |
Bu yaklaşımın 2025-2026 döneminde hız kazanmasının arkasında iki somut gelişme var: görsel-metin embedding modellerinin olgunlaşması (CLIP, SigLIP, E5-V) ve GPT-4V, Claude 3, Gemini gibi vision-language modellerinin API üzerinden erişilebilir olması. İndeksleme tarafında görsel veriyi kodlayabilen modeller, yanıt üretme tarafında ise görsel bağlamı okuyabilen modeller bir araya gelince tam anlamıyla çalışan bir pipeline kurulabiliyor.
Nasıl Çalışır?
Multimodal RAG iki ana mimari yaklaşıma göre uygulanabilir.
Ayrı Encoder Yaklaşımı
Metin ve görsel veriler farklı encoderlar tarafından işlenir, ayrı indexlere yazılır. Sorgu geldiğinde her iki indexe paralel arama yapılır, sonuçlar birleştirilerek modele gönderilir.
Metin Belgesi → Metin Encoder (BGE-M3 vb.) → Metin Index ──┐
Görsel / PDF → Görsel Encoder (CLIP vb.) → Görsel Index ─┤
↓
Sorgu → [Paralel Arama] → Birleştirilmiş Sonuçlar → LLM
Her encoder kendi modalitesinde optimize edilebildiği için arama kalitesi yüksek tutulabilir. Öte yandan metin ve görsel vektörler aynı geometrik uzayda yer almadığından birleştirme adımında ek bir düzineleme katmanı gerekebilir.
Birleşik Embedding Yaklaşımı
Hem metin hem görsel aynı vektör uzayına gömülür; tek bir index kullanılır. Sorgu türünden bağımsız olarak tüm modaliteler aynı havuzda aranır.
CLIP ve türevleri bu yaklaşımın en yaygın örnekleridir. “Kırmızı spor araba” ifadesi ve bir spor araba fotoğrafı, CLIP’in ortak uzayında birbirine yakın vektörler üretir; metin sorgusuyla görsel belge getirilebilir ya da görsel sorguyla metin belge bulunabilir.
Genel Akış
[İndeksleme]
Doküman → Modalite Tespiti → Encoder → Vektör DB
[Sorgulama]
Kullanıcı Sorusu → Sorgu Embedding
↓
Vektör DB Araması
↓
Top-k Sonuçlar (metin + görsel)
↓
Vision-Language LLM
↓
Yanıt (kaynaklara atıfla)
Embedding modelleri bu mimarinin temelidir. Bir embedding modeli hem metni hem görseli aynı geometrik uzayda temsil edebildiğinde, farklı modaliteler arasında anlamlı karşılaştırma yapılabilir hale gelir.
ColPali: Sayfa Görüntüsü Olarak PDF
PDF belgelerini işlemek, multimodal RAG’ın en çetrefilli kısmıdır. Geleneksel yaklaşım şu zinciri izler: PDF → OCR → metin çıkarma → parçalama → embedding. Bu zincirin her adımında bilgi kaybolur. Tablo yapısı bozulabilir, grafikteki değerler anlamsız sayılara indirgenir, görsel düzen tümüyle silinir.
ColPali bu zinciri sıfırdan tasarlar. OCR yoktur. Her PDF sayfası doğrudan bir görsel olarak işlenir.
Mimarinin Temel Katmanları
ColPali iki katmana dayanır:
- PaliGemma: Google’ın multimodal dil modeli. Sayfayı görsel olarak işler, içeriği metinsel açıklamaya gerek duymadan kavrar.
- Late Interaction (ColBERT ilhamı): Sayfayı tek bir vektöre indirgemek yerine küçük “patch”lere böler, her patch için ayrı bir vektör üretir. Sorgu geldiğinde patch vektörleri ile sorgu vektörleri arasında max-similarity hesabı yapılır.
Bu yaklaşım, tablo içindeki belirli bir satırı ya da grafikteki belirli bir değeri bulmak için çok daha hassas bir retrieval sunar. “Tek vektör per belge” veya “tek vektör per chunk” stratejisinin gözden kaçırdığı granüler detaylar, patch-level temsille korunur.
byaldi ile Pratik Örnek
from byaldi import RAGMultiModalModel
# ColPali modelini yükle
model = RAGMultiModalModel.from_pretrained("vidore/colpali-v1.2")
# PDF'i sayfa görüntüsü olarak indexle
model.index(
input_path="./finansal_rapor_2026.pdf",
index_name="finansal_rapor",
store_collection_with_index=True,
overwrite=True
)
# Sorgu çalıştır
results = model.search("2025 yılı net kar marjı nedir?", k=3)
for r in results:
print(f"Sayfa {r.page_num}: skor {r.score:.3f}")
ColPali, tablo ve grafik yoğun finansal raporlarda, teknik belgelerde ve slayt destelerinde metin tabanlı OCR yaklaşımına kıyasla belirgin bir fark yaratır. Tablodaki rakamlar, grafik etiketleri ve sayfa düzeni bilgisi bozulmadan sorgulanabilir hale gelir.
Agentic RAG mimarilerinde ColPali özellikle değerli: her sayfa bağımsız bir retrieval birimi olarak konumlandırıldığında, çok adımlı sorgularda ajan yalnızca işe yarar sayfaları seçip modele iletebilir, gereksiz bağlam taşımaz.
LlamaIndex ile Multimodal RAG Uygulaması
MultiModalVectorStoreIndex, hem metin hem görsel verileri aynı index yapısında tutar. LlamaIndex bu bileşeni merkeze alarak multimodal pipeline’ı birkaç satırla kurulabilir hale getirir.
Temel Kurulum
from llama_index.core import SimpleDirectoryReader
from llama_index.core.indices import MultiModalVectorStoreIndex
from llama_index.multi_modal_llms.openai import OpenAIMultiModal
# Belgeleri yükle — PDF ve görsel karışık dizin
documents = SimpleDirectoryReader(
"./belgeler",
required_exts=[".pdf", ".png", ".jpg"]
).load_data()
# Multimodal index oluştur
index = MultiModalVectorStoreIndex.from_documents(documents)
# GPT-4o vision tanımla
mm_llm = OpenAIMultiModal(model="gpt-4o", max_new_tokens=1500)
# Sorgu motoru
query_engine = index.as_query_engine(multi_modal_llm=mm_llm)
Finansal Rapor Senaryosu
response = query_engine.query(
"2026 birinci çeyreğinde hangi ürün segmenti "
"en yüksek büyüme oranını gösterdi? "
"Grafikteki verilere dayanarak açıkla."
)
print(response)
GPT-4o veya LLaVA gibi vision-language modeller bu adımda hem metin bağlamını hem görsel içeriği birlikte işler. Grafikteki çubuklar, tablodaki sayılar ve dipnot metinleri tek bir tutarlı yanıtta birleşir.
GraphRAG ile karşılaştırıldığında: GraphRAG metin içindeki kavramsal ilişkileri güçlü biçimde modeller; multimodal RAG ise şematik ve görsel ilişkileri daha doğrudan korur. Ağırlıklı olarak dokümanlara dayalı bilgi tabanlarında ikisi tamamlayıcı roller üstlenir.
Kullanım Senaryoları
Hukuki Doküman Analizi
Sözleşmeler çoğunlukla yalnızca metin içermez. Şemalar, imzalı ekler, tablo formatında maddeler ve elle yazılmış notlar yer alır. Multimodal RAG, “Bu sözleşmenin 3. ekindeki sorumluluk limitini bul” gibi bir sorguyu hem metin kısmından hem tablo ve şema eklerinden birleşik olarak yanıtlar.
Tıbbi Görüntüleme ve Rapor Entegrasyonu
Radyoloji raporları ile röntgen veya MRI görüntüleri bir arada indexlenebilir. Hekim “Bu hastanın geçen yılki akciğer filmlerindeki değişimi raporla karşılaştır” dediğinde sistem hem görüntü hem rapor metnini birlikte getirir; iki farklı sistemde manuel arama yapma zorunluluğu ortadan kalkar.
E-ticaret Ürün Kataloğu
Ürün fotoğrafları, teknik veri sayfaları ve müşteri yorumları tek bir indexte tutulur. “Yüksek darbeli plastikten yapılmış, kırmızı renkte mevcut şanzıman kapağı var mı?” sorusu hem görsel hem metin retrieval’ı tetikler ve katalog içinde hem renk hem malzeme hem de ürün kategorisini birden filtreler.
Mühendislik Çizimleri ve Teknik Belgeler
Fabrika ekipmanlarının teknik çizimleri ile bakım kılavuzları birleştirilerek indexlenir. “Kompresör 4B’nin basınç tahliye valfinin konumu nerede?” sorusu teknik çizimden ve metin kılavuzdan birlikte yanıtlanır; bakım teknisyeni doğru parçayı kılavuzu sayfa sayfa taramadan bulabilir.
Zorluklar ve Sınırlamalar
Yüksek Depolama Maliyeti
Görsel vektörler, metin vektörlerine kıyasla önemli ölçüde daha büyük. ColPali’nin patch-level vektörleri bir sayfayı onlarca vektörle temsil eder. Binlerce sayfadan oluşan bir PDF koleksiyonu ciddi vektör veritabanı kapasitesi ister; depolama maliyeti baştan bütçelenmezse üretim ortamında sürpriz olabilir.
Retrieval Kalitesi Henüz Standart Değil
Metin RAG için RAGAS veya BEIR gibi yerleşik değerlendirme çerçeveleri mevcut. Multimodal RAG için bu standartlar hâlâ gelişme aşamasında. Hangi görsel retrieval kabul edilebilir, başarı eşiği ne: bu soruların cevabı proje özelinde belirlenmek zorunda; hazır bir kıyaslama tablosu yok.
Latency Artışı
Görsel vektörlerin üretilmesi ve aranması metin vektörlerine göre daha uzun sürer. Patch-level retrieval’da karşılaştırılacak vektör sayısı artar. Gerçek zamanlı uygulamalarda bu gecikme kabul edilemez bir düzeye ulaşabilir; retrieval stratejisinin mimari tasarım aşamasında ele alınması gerekir.
Görsel Yorumlamada Hallüsinasyon Riski
Vision-language modeller, belirsiz ya da düşük kaliteli görsellerde yanlış yorumlama yapabilir. “Grafikteki çizgi artıyor mu azalıyor mu?” sorusu bile model için yanıltıcı olabilir. Görsel bağlam ile metin bağlamının çeliştiği durumlarda hangi kaynağın önceliklendirileceği net değildir; bu belirsizliği yönetmek üretim sistemlerinde kritik bir tasarım kararı haline gelir.
Hangi Araçları Kullanmalısınız?
ColPali + Vespa / Qdrant
PDF ağırlıklı iş akışları için en pratik başlangıç noktası. Vespa, late-interaction vektörleri için native destek sunar; Qdrant ise multimodal projelerde giderek yaygınlaşan bir tercih. byaldi kütüphanesi ColPali’yi birkaç satırla projeye entegre etmeyi kolaylaştırır.
LlamaIndex MultiModal
Karışık içerikli belge setleri ve prototip projeleri için iyi bir seçenek. GPT-4o, LLaVA veya BakLLaVA gibi farklı vision-language modellerine geçiş yapmak kolaydır; framework değişikliği gerektirmez.
LangChain MultiQueryRetriever
Metin ağırlıklı ama aralıklı görsel içerik barındıran projelerde, mevcut bir LangChain pipeline’ına multimodal retrieval eklemek için uygun. Sıfırdan multimodal mimari kurmak yerine mevcut yapıyı genişletmek isteyenlere hitap eder.
Weaviate multi2vec
Metin, görsel ve video için birleşik embedding sunan multi2vec-clip modülü, üç modaliteyi aynı indexe yazan kullanıma hazır bir çözüm. Özellikle tek bir Weaviate instance’ında farklı veri tiplerini tutmak isteyen ekipler için tercih sebebi.
Multimodal RAG’ın Geleceği
Araştırma topluluğu “unified indexing” yönünde ilerliyor: tek bir modelin farklı modaliteleri ortak bir temsil uzayında kodlaması ve retrieval ile üretimin aynı mimari içinde bütünleşmesi. ColPali’nin patch-level yaklaşımı bu yönün erken bir işareti; ileride PDF sayfasının her köşesi, metin paragrafı gibi doğal bir retrieval birimi haline gelebilir.
Klasik RAG ne zaman yeterli, multimodal ne zaman gerekli? Veri setinde görsel bilginin anlam taşıdığı belgeler varsa, OCR zinciriyle başlamak hem zaman hem doğruluk açısından dezavantajlı. Sayfayı görsel olarak indexleyen bir pipeline baştan daha az karmaşıklık ve daha güvenilir sonuçlar sunar.
Multimodal RAG, belge anlama problemini yeniden tanımlıyor. Metin çıkarmak artık yeterli değil; sayfanın kendisi bir veri birimi. PDF’deki grafik, sözleşmedeki tablo, teknik çizimdeki konum: bunların tamamı sorgulanabilir bilgiye dönüşüyor.