tag ContrastiveLearning

Bu sayfada ContrastiveLearning etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

CLIP (CLIP (Karşıtlıklı Dil-Görüntü Ön Eğitimi))

CLIP (Contrastive Language-Image Pre-Training), OpenAI tarafından 2021 yılında geliştirilen ve doğal dil metinleri ile görüntüleri aynı anlambilimsel uzayda temsil etmeyi öğrenen çok modlu (multimodal) bir yapay zeka modelidir. Alec Radford ve arkadaşları tarafından "Learning Transferable Visual Models From Natural Language Supervision" makalesiyle tanıtılmıştır. CLIP, internet'ten toplanan 400 milyon görüntü-metin çiftiyle karşıtlıklı öğrenme (contrastive learning) tekniğiyle eğitilmiştir. Eğitim sırasında bir görüntü kodlayıcısı (ViT veya ResNet) ve bir metin kodlayıcısı (Transformer), eşleşen görüntü-metin çiftlerinin vektör temsillerini yakınlaştırırken eşleşmeyen çiftleri uzaklaştıracak şekilde eğitilir. Bu sayede model "köpek" kelimesinin vektörünü köpek fotoğrafının vektörüne yaklaştırır. CLIP'in en güçlü özelliği sıfır-shot (zero-shot) transfer yeteneğidir: hiç görmediği kategorileri yalnızca metin açıklamalarından sınıflandırabilir. ImageNet sınıflandırmasında doğrudan sıfır-shot yaklaşımıyla %76 doğruluk elde etmesi bu gücü göstermektedir. Günümüzde CLIP, Stable Diffusion'ın metin kodlayıcısı, görüntü arama sistemleri, içerik moderasyonu ve çok modlu yapay zeka sistemlerinin temel bileşeni olarak yaygın kullanılmaktadır.

arrow_forward