In-Context Learning (Bağlam İçi Öğrenme)

Bağlam İçi Öğrenme, büyük dil modellerinin ağırlık güncellemesi olmadan, prompt'taki birkaç örnek üzerinden yeni görevleri çözebilme yeteneğidir.

In-Context Learning (ICL), büyük dil modellerinin ağırlıklarını güncellemeden, yalnızca prompt içindeki birkaç örnek (few-shot) ya da tek bir açıklama (zero-shot) aracılığıyla yeni görevleri gerçekleştirebildiği bir yetenektir. Model, gradient güncellemesi yaşamadan bağlamdan öğrenir; bu öğrenme inference anında gerçekleşir ve oturum bitince sıfırlanır.

settings_suggest Nasıl Çalışır?

ICL, transformer modelinin dikkat mekanizması sayesinde mümkün olur. Prompt içine eklenen örnek giriş-çıkış çiftleri (demonstrasyon örnekleri), modelin sonraki token olasılıklarını dinamik olarak yeniden ağırlıklandırmasını sağlar. Bu süreç parametrelerin güncellenmediği örtük bir uyarlama biçimidir. GPT-3 bu yeteneği ilk büyük ölçekte sergileyerek few-shot learner kavramını popülerleştirdi.

ICL Türleri

looks_one Zero-Shot

Hiç örnek verilmez; model yalnızca görev açıklamasına dayanarak yanıt üretir.

looks_two One-Shot

Tek bir giriş-çıkış örneği prompta eklenir. Model bu tek örnekten görevi çıkarır.

filter_3 Few-Shot

3–32 arası örnek kullanılır. Örnekler arttıkça performans genellikle yükselir, ancak bağlam penceresi sınırı gözetilmeli.

format_list_numbered Many-Shot

Uzun bağlam pencereli modellerde yüzlerce örnek gömülerek fine-tuning benzeri performans elde edilir.

balance Güçlü ve Zayıf Yönler

  • check_circle Esneklik: Herhangi bir downstream görevi için yeniden eğitime gerek yok; prompt değiştirmek yeterli.
  • check_circle Hız: Model güncellenmediğinden sıfır eğitim maliyetiyle yeni görevlere anında adapte olunabilir.
  • check_circle Bağlam sınırı: Context window dolunca daha fazla örnek eklenemez; büyük veri kümeleri için fine-tuning daha uygundur.
  • check_circle Örnek hassasiyeti: Demonstrasyon örneklerinin sırası ve kalitesi sonuçları önemli ölçüde etkiler.

quiz Sıkça Sorulan Sorular

  • check_circle ICL fine-tuning'ın yerini alır mı?: İkisi tamamlayıcıdır. ICL hız ve esneklik sunarken fine-tuning özelleştirilmiş ve tutarlı davranış için daha uygundur.
  • check_circle Hangi modeller ICL'yi en iyi kullanır?: GPT-4, Claude 3 ve Llama 3 gibi büyük modeller ICL'de öne çıkar. Parametre sayısı arttıkça ICL performansı iyileşir.
  • check_circle ICL ile prompt engineering farkı nedir?: Prompt engineering modele ne söyleneceğini tasarlamaktır. ICL ise prompt içindeki örnekleri kullanarak görev kalıplarını çıkarır.