tag DilModeli

Pre-training (Ön Eğitim) (Ön Eğitim)

Bu sayfada DilModeli (Pre-training (Ön Eğitim) (Ön Eğitim)) etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.

Pre-training (Ön Eğitim), dil modelleri ve diğer derin öğrenme sistemlerinin belirli bir göreve yönlendirilmeden önce büyük ve çeşitli ham veri kümeleri üzerinde genel dil örüntülerini, bilgi yapılarını ve dünya modelini kazandığı ilk eğitim aşamasıdır. Modern yapay zekanın temel taşı olan bu süreç, foundation model paradigmasının merkezindedir. Pre-training'in çalışma mantığı modelin türüne göre farklılaşır. Otoregressif dil modellerinde (GPT ailesi) model, her adımda bir önceki tokenlere bakarak sonraki tokeni tahmin eder; bu görev dil modellemesi (causal language modeling) olarak adlandırılır. Maskelemeli dil modellerinde (BERT) ise giriş cümlesindeki rastgele tokenler gizlenerek model bu maskelenmiş tokenleri tahmin etmeyi öğrenir. Öz-denetimli öğrenme prensibine dayandığından etiket gerekmez; metinlerin kendisi öğrenme sinyali sağlar. Veri ölçeği açısından modern pre-training'in devasa boyutları dikkat çekicidir: GPT-3 yaklaşık 300 milyar token, LLaMA 3 ise 15 trilyon token üzerinde eğitilmiştir. Bu veri kümeleri İnternet metinleri (Common Crawl), kitaplar, akademik makaleler, kod deposu ve çok dilli içeriklerden derlenir. Eğitim bilgi işlem maliyeti de aynı ölçekte büyüktür; GPT-4 eğitiminin yüz milyon dolar civarında olduğu tahmin edilmektedir. Pre-training tamamlandıktan sonra model çeşitli yöntemlerle belirli görevlere uyarlanır. İnce ayar (fine-tuning) ile ilgili alan verisiyle model özelleştirilir. RLHF ile insan tercihlerine hizalanır. Komut ayarı (instruction tuning) ise modelin doğal dil talimatlarını izlemesini öğretir. Bu uyarlama aşamaları pre-training sırasında kazanılan genel bilgi altyapısını koruyarak üzerine inşa eder.

model_training

Pre-training (Ön Eğitim) (Ön Eğitim)

Pre-training (Ön Eğitim), dil modelleri ve diğer derin öğrenme sistemlerinin belirli bir göreve yönlendirilmeden önce büyük ve çeşitli ham veri kümeleri üzerinde genel dil örüntülerini, bilgi yapılarını ve dünya modelini kazandığı ilk eğitim aşamasıdır. Modern yapay zekanın temel taşı olan bu süreç, foundation model paradigmasının merkezindedir. Pre-training'in çalışma mantığı modelin türüne göre farklılaşır. Otoregressif dil modellerinde (GPT ailesi) model, her adımda bir önceki tokenlere bakarak sonraki tokeni tahmin eder; bu görev dil modellemesi (causal language modeling) olarak adlandırılır. Maskelemeli dil modellerinde (BERT) ise giriş cümlesindeki rastgele tokenler gizlenerek model bu maskelenmiş tokenleri tahmin etmeyi öğrenir. Öz-denetimli öğrenme prensibine dayandığından etiket gerekmez; metinlerin kendisi öğrenme sinyali sağlar. Veri ölçeği açısından modern pre-training'in devasa boyutları dikkat çekicidir: GPT-3 yaklaşık 300 milyar token, LLaMA 3 ise 15 trilyon token üzerinde eğitilmiştir. Bu veri kümeleri İnternet metinleri (Common Crawl), kitaplar, akademik makaleler, kod deposu ve çok dilli içeriklerden derlenir. Eğitim bilgi işlem maliyeti de aynı ölçekte büyüktür; GPT-4 eğitiminin yüz milyon dolar civarında olduğu tahmin edilmektedir. Pre-training tamamlandıktan sonra model çeşitli yöntemlerle belirli görevlere uyarlanır. İnce ayar (fine-tuning) ile ilgili alan verisiyle model özelleştirilir. RLHF ile insan tercihlerine hizalanır. Komut ayarı (instruction tuning) ise modelin doğal dil talimatlarını izlemesini öğretir. Bu uyarlama aşamaları pre-training sırasında kazanılan genel bilgi altyapısını koruyarak üzerine inşa eder.

arrow_forward