Embedding Model (Gömme Modeli)

Embedding Model (Gömme Modeli), metin, görüntü veya diğer veri türlerini anlamsal olarak birbiriyle ilişkili öğelerin vektör uzayında yakın, ilişkisiz öğelerin ise uzak olacağı şekilde yoğun (dense) sayısal vektörlere dönüştüren bir yapay zeka modelidir.

Embedding Model (Gömme Modeli), metin, görüntü veya diğer veri türlerini anlamsal olarak birbiriyle ilişkili öğelerin vektör uzayında yakın, ilişkisiz öğelerin ise uzak olacağı şekilde yoğun (dense) sayısal vektörlere dönüştüren bir yapay zeka modelidir. Üretilen vektörler (embedding), semantik arama, RAG sistemleri, öneri motorları ve kümeleme gibi görevlerde metin benzerliğini ölçmek için kullanılır. OpenAI text-embedding-3, Cohere Embed, Google text-embedding ve açık kaynak modeller (BAAI/bge, Nomic, Jina) bu alanda önde gelen seçeneklerdir.

scatter_plot Embedding Modeller Nasıl Çalışır?

Bir embedding modeli, dil modelinin son gizli katmanındaki çıktıyı sabit boyutlu bir vektöre indirger (örn. 1536 boyut). Benzer anlamdaki cümleler —farklı kelimelerle yazılmış olsa da— bu uzayda birbirine yakın, farklı anlamlılar ise uzak olur. Eğitim; kontrastif öğrenme veya bi-encoder mimarisiyle çift yönlü çiftleri (pozitif/negatif örnekler) kullanır.

Popüler Embedding Modelleri

api OpenAI text-embedding-3

1536 veya 3072 boyutlu vektörler. API üzerinden hazır kullanım; yüksek kalite ama API maliyeti var. small ve large varyantı mevcuttur.

open_in_new BAAI/bge-m3

Çok dilli, hibrit (dense + sparse) embedding modeli. HuggingFace'den indirip lokal çalıştırılır; sıfır API maliyeti.

auto_awesome Nomic Embed

768 boyutlu; MTEB liderlik tablosunda güçlü. Apache-2.0 lisanslı; ticari kullanıma açık açık kaynak seçenek.

quiz Sık Sorulan Sorular

  • check_circle Embedding boyutu nasıl seçilir?: Daha yüksek boyut genellikle daha iyi ayrım sağlar ama depolama ve arama maliyeti artar. 768-1536 boyut çoğu RAG uygulaması için yeterlidir.
  • check_circle Hangi vektör veritabanıyla kullanılır?: Pinecone, Weaviate, Chroma, Qdrant, Milvus ve pgvector (PostgreSQL eklentisi) yaygın seçeneklerdir. Küçük projeler için Chroma veya pgvector önerilir.
  • check_circle Cross-encoder ile farkı nedir?: Bi-encoder (embedding modeli) sorgu ve belgeyi ayrı ayrı işler; hızlıdır ama daha kaba. Cross-encoder ikisini birlikte işler; daha hassas ama yavaş. Genellikle bi-encoder getirip cross-encoder rerank eder.