tag derin öğrenme
Image Captioning (Görüntü Altyazılama)
Bu sayfada derin öğrenme (Image Captioning (Görüntü Altyazılama)) etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.
Image Captioning (Görüntü Altyazılama), bir görüntünün içeriğini otomatik olarak doğal dilde metin olarak tanımlayan yapay zeka tekniğidir. Görüntü encoder'ı (genellikle Vision Transformer veya CNN) ile metin decoder'ını (dil modeli) bir araya getiren çok modlu (multimodal) bir yaklaşımdır. Sistem, görüntüden çıkarılan öznitelikleri dil bileşenine aktararak "Bu fotoğrafta bir köpek çimenlerin üzerinde oturuyor" gibi açıklayıcı cümleler üretir. BLIP, GIT, Flamingo ve LLaVA gibi modern modeller bu alanda öne çıkan mimarilerdir. Erişilebilirlik (görme engelliler için alt metin), içerik moderasyonu, görsel arama ve veri etiketleme gibi geniş bir uygulama alanına sahiptir.