tag uzun-bağlam

Bu sayfada uzun-bağlam etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

content_paste_search

Needle in a Haystack (Samanlıkta İğne Testi)

Needle in a Haystack (Samanlıkta İğne), büyük dil modellerinin (LLM) uzun bağlam pencerelerindeki performansını ölçmek için tasarlanmış bir değerlendirme yöntemidir. Test, basit ama güçlü bir mantığa dayanır: modele çok uzun bir metin (samanlık) verilir ve bu metnin içine küçük, spesifik bir bilgi parçası (iğne) gizlenir. Model daha sonra yalnızca o iğneyi içeren bir soruya yanıt vermesi istenir. Performans, iğnenin belgenin neresine yerleştirildiğine (başı, ortası, sonu) ve belgenin uzunluğuna (birkaç bin ila milyonlarca token) bağlı olarak ölçülür. Bu test 2023 yılı sonunda OpenAI'ın GPT-4 Turbo'nun 128.000 token bağlam penceresini duyurmasıyla popülerlik kazandı. Araştırmacılar kısa sürede fark etti ki bir modelin uzun bağlam desteklemesi, o bağlamı etkin biçimde kullanabildiği anlamına gelmiyordu. Needle in a Haystack testleri, modellerin özellikle belgenin ortasındaki bilgileri sık sık kaçırdığını ortaya koydu; bu olgu "Lost in the Middle" fenomeni olarak adlandırıldı. Test metodolojisi oldukça esnektir. İğne olarak bir şifreli kod, bir şehir adı, bir tarih ya da herhangi bir belirgin bilgi kullanılabilir. Samanlık ise genellikle Paul Graham denemelerinden oluşan ya da rastgele oluşturulmuş uzun metin bloklarıdır. Değerlendirme, modelin yanıtının doğru iğne bilgisini içerip içermediğini kontrol ederek yapılır. Sonuçlar ısı haritaları şeklinde görselleştirilir: yatay eksen belge uzunluğunu, dikey eksen iğnenin konumunu temsil eder; doğru yanıtlar yeşil, yanlışlar kırmızı olarak gösterilir. Anthropic Claude, Google Gemini ve Meta LLaMA modelleri bu testle kapsamlı biçimde karşılaştırılmıştır. Testler, modellerin bağlam uzunluğu arttıkça performans kaybı yaşadığını ve iğnenin konumunun kritik önem taşıdığını göstermiştir. Bu bulgular, modern LLM mimarilerinin gelişimini ve uzun bağlam optimizasyon tekniklerini (Flash Attention, sliding window attention vb.) doğrudan etkilemiştir. Needle in a Haystack testi aynı zamanda RAG (Retrieval-Augmented Generation) sistemleri için de önemlidir: bir RAG sistemine koyulan belgelerdeki iğnelerin model tarafından doğru biçimde alınıp alınamadığını test etmek için standart bir araç haline gelmiştir.

arrow_forward