Pre-training (Ön Eğitim) (Ön Eğitim)

#PreTraining #OnEgitim #LLM #FoundationModel #DilModeli

Pre-training (Ön Eğitim), dil modellerinin büyük ham veri üzerinde genel dil örüntülerini ve dünya bilgisini kazandığı ilk eğitim aşamasıdır.

Pre-training (Ön Eğitim), dil modelleri ve diğer derin öğrenme sistemlerinin belirli bir göreve yönlendirilmeden önce büyük ve çeşitli ham veri kümeleri üzerinde genel dil örüntülerini, bilgi yapılarını ve dünya modelini kazandığı ilk eğitim aşamasıdır. Modern yapay zekanın temel taşı olan bu süreç, foundation model paradigmasının merkezindedir. Pre-training'in çalışma mantığı modelin türüne göre farklılaşır. Otoregressif dil modellerinde (GPT ailesi) model, her adımda bir önceki tokenlere bakarak sonraki tokeni tahmin eder; bu görev dil modellemesi (causal language modeling) olarak adlandırılır. Maskelemeli dil modellerinde (BERT) ise giriş cümlesindeki rastgele tokenler gizlenerek model bu maskelenmiş tokenleri tahmin etmeyi öğrenir. Öz-denetimli öğrenme prensibine dayandığından etiket gerekmez; metinlerin kendisi öğrenme sinyali sağlar. Veri ölçeği açısından modern pre-training'in devasa boyutları dikkat çekicidir: GPT-3 yaklaşık 300 milyar token, LLaMA 3 ise 15 trilyon token üzerinde eğitilmiştir. Bu veri kümeleri İnternet metinleri (Common Crawl), kitaplar, akademik makaleler, kod deposu ve çok dilli içeriklerden derlenir. Eğitim bilgi işlem maliyeti de aynı ölçekte büyüktür; GPT-4 eğitiminin yüz milyon dolar civarında olduğu tahmin edilmektedir. Pre-training tamamlandıktan sonra model çeşitli yöntemlerle belirli görevlere uyarlanır. İnce ayar (fine-tuning) ile ilgili alan verisiyle model özelleştirilir. RLHF ile insan tercihlerine hizalanır. Komut ayarı (instruction tuning) ise modelin doğal dil talimatlarını izlemesini öğretir. Bu uyarlama aşamaları pre-training sırasında kazanılan genel bilgi altyapısını koruyarak üzerine inşa eder.

Pre-training Neden Bu Kadar Önemli?

Pre-training, foundation model paradigmasını mümkün kılan temel bileşendir. Model bu aşamada dil yapısını, gerçek dünya olgularını, mantıksal ilişkileri ve kod örüntülerini öğrenir. Sonraki uyarlama adımları (fine-tuning, RLHF) bu altyapı üzerine inşa edilir; dolayısıyla pre-training kalitesi nihai modelin tavanını belirler. İyi bir pre-training verisi olmadan ne kadar gelişmiş fine-tuning yapılırsa yapılsın model belirli bir performans düzeyinin ötesine geçemez.

Pre-training Görevleri

Kausal Dil Modellemesi

Sol-sağ tahmin; model her adımda önceki tüm tokenlere bakarak bir sonrakini öngörür. GPT serisi bu yaklaşımı kullanır.

Maskelemeli Dil Modellemesi

Tokenların %15'i maskelenir, model bağlamdan geri kazanır. BERT ve RoBERTa bu yöntemle eğitilir; kodlayıcı modeller için uygundur.

Sonraki Cümle Tahmini

BERT'te kullanılan yardımcı görev; iki cümlenin gerçekte ardışık olup olmadığını öğretir ve söylem anlayışını artırır.

Öz-Denetimli Görevler

Görüntü-metin eşleştirme, ses-metin hizalama gibi çok modlu görevler de pre-training kapsamında gerçekleştirilebilir.

Pre-training Sonrası Uyarlama Aşamaları

check_circle İnce Ayar (Fine-tuning): Alan özelindeki veriyle tüm veya belirli katmanların ağırlıkları güncellenir; tıp, hukuk, yazılım gibi alanlara özelleştirilir.
check_circle RLHF: İnsan tercih etiketlerinden ödül modeli öğrenilir; PPO ile politika iyileştirilir; GPT-4 ve Claude bu aşamadan geçer.
check_circle Instruction Tuning: Çeşitli görev talimatları ve cevap çiftleriyle model doğal dil direktiflerini izlemeyi öğrenir.
check_circle PEFT (LoRA/QLoRA): Tüm ağırlıklar yerine küçük adaptör katmanları eğitilir; hesaplama maliyeti dramatik biçimde düşer.

Sıkça Sorulan Sorular

check_circle Pre-training ve fine-tuning arasındaki fark nedir?: Pre-training büyük ham veriyle genel bilgi altyapısı kurar; fine-tuning bu altyapıyı belirli görev veya alana uyarlar. Pre-training haftalarca sürer ve milyonlarca dolar maliyet doğurabilirken fine-tuning saatler-günler içinde tamamlanabilir.
check_circle Herkes pre-training yapabilir mi?: Küçük modeller (1-7B) için erişilebilir GPU kümesiyle mümkündür. GPT-4 ölçeğinde pre-training yalnızca büyük laboratuvarlara uygun maliyette gerçekleştirilebilir. Açık kaynak modelleri indirmek ve fine-tune etmek çok daha yaygın ve pratik yaklaşımdır.
check_circle Continual pre-training nedir?: Mevcut bir pre-trained modelin yeni verilerle (güncel haberler, yeni alan dokümanları) ek eğitime alınmasıdır; sıfırdan eğitim yerine bilgi tabanını genişletmek için uygun maliyetli bir yöntemdir.