Cosine Similarity (Kosinüs Benzerliği)
Kosinüs benzerliği (Cosine Similarity), iki vektör arasındaki açının kosinüsünü ölçen ve vektörlerin yönleri arasındaki benzerliği sayısal olarak ifade eden bir metriktir. Değeri [-1, 1] aralığında değişir: 1 tam benzer (aynı yön), 0 ortogonal (ilgisiz) ve -1 zıt anlamlıdır. Formülü: cos(θ) = (A·B)/(‖A‖×‖B‖).
Metin ve embedding alanlarında kosinüs benzerliği çok boyutlu vektörler arasındaki anlamsal yakınlığı ölçmek için tercih edilir. Vektörlerin büyüklüğünden bağımsız olarak yönü dikkate alması, belge uzunluğuna duyarsız bir ölçüm sağlar; bu nedenle tf-idf ve embedding vektörlerinde öklid mesafesine göre daha güvenilir sonuçlar verir.
Vektör veritabanlarında (Pinecone, Weaviate, Qdrant, ChromaDB) ve semantik arama motorlarında sorgular embedding'e dönüştürülür ve veritabanındaki vektörlerle kosinüs benzerliği hesaplanarak en yakın komşular (k-NN) döndürülür. RAG sistemlerinde sorgu embedding'i ile belge parçası embedding'leri arasındaki kosinüs benzerliği, bağlam seçiminin temel ölçütüdür. Modern vektör veritabanları bu hesaplamayı HNSW veya IVF gibi yaklaşık en yakın komşu (ANN) algoritmaları ile milyonlarca vektör için milisaniyeler içinde gerçekleştirir.