tag SemantikaArama

Bu sayfada SemantikaArama etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Semantic Search (Semantik Arama)

Semantik arama, anahtar kelime eşleşmesine değil anlam benzerliğine dayanan bir bilgi erişim yöntemidir. Geleneksel TF-IDF veya BM25 tabanlı arama sistemleri yalnızca ortak kelimeleri bulurken; semantik arama, sorgu ve belge içeriğini yoğun vektörlere (dense vectors) dönüştürerek bunlar arasındaki kavramsal yakınlığı ölçer. Bu sayede 'araba nasıl tamir edilir?' sorusu, 'otomobil bakım rehberi' gibi farklı kelimeler içeren belgeleri de getirebilir. Semantiik aramanın temeli embedding modellerindedir. BERT, Sentence-BERT (SBERT), OpenAI text-embedding-ada-002 ya da Cohere embed gibi modeller, metin parçalarını anlamsal benzerliği kosinüs mesafesiyle ölçülebilen yüksek boyutlu vektörlere dönüştürür. Bu vektörler Pinecone, Weaviate, Qdrant veya pgvector gibi vektör veritabanlarında depolanır ve yaklaşık en yakın komşu (ANN) aramasıyla sorgulanır. RAG (Erişim Destekli Üretim) sistemlerinde semantik arama, bilgi tabanından alaka düzeyi yüksek parçaları getirmenin standart yöntemidir. Hibrit arama sistemleri, semantik aramanın anlam gücünü anahtar kelime aramasının hassasiyetiyle birleştirerek her iki yaklaşımın avantajlarından yararlanır. Günümüzde çoğu üretim RAG sistemi, saf semantik ya da saf anahtar kelime araması yerine bu ikisini dengeleyen hibrit RRF (Reciprocal Rank Fusion) gibi yeniden sıralama yöntemlerini kullanır.

arrow_forward functions

Vector (Vektör)

Vektör, matematiksel bir nesne olarak hem büyüklük hem de yön bilgisi taşır; n boyutlu uzayda sayı dizisiyle temsil edilir. Yapay zeka ve makine öğrenimine bağlamında vektörler, metinleri, görüntüleri, sesleri veya diğer verileri sayısal temsillere dönüştürmek için kullanılır. Bir cümle ya da belge, embedding modeli tarafından yüzlerce veya binlerce boyutlu bir vektöre dönüştürüldüğünde, benzer anlamlı içerikler geometrik olarak birbirine yakın konumlanır. Makine öğreniminde vektörler iki temel biçimde karşımıza çıkar: seyrek vektörler (sparse vectors) ve yoğun vektörler (dense vectors). TF-IDF veya one-hot kodlama gibi geleneksel yöntemler çoğu boyutu sıfır olan seyrek vektörler üretir. Embedding modelleri ise anlamı sıkıştırılmış, boyut sayısı sınırlı (genellikle 128-4096 arası) yoğun vektörler üretir. Word2Vec, GloVe ve modern Sentence-BERT gibi modeller bu yoğun vektörlerin örnekleridir. Vektörler arasındaki mesafe ve benzerlik, anlamsal yakınlığı ölçmek için kullanılır. Kosinüs benzerliği (cosine similarity) yön benzerliğini ölçerek uzunluktan bağımsız karşılaştırma yapar; iki vektör aynı yöne işaret ediyorsa (kosinüs ≈ 1) semantik olarak benzer kabul edilir. Vektör veritabanları (Pinecone, Qdrant, pgvector) bu yoğun vektörleri büyük ölçekte depolayarak hızlı en yakın komşu araması sağlar; bu altyapı semantik arama ve RAG sistemlerinin temelini oluşturur.

arrow_forward