Pre-training Neden Bu Kadar Önemli?
Pre-training, foundation model paradigmasını mümkün kılan temel bileşendir. Model bu aşamada dil yapısını, gerçek dünya olgularını, mantıksal ilişkileri ve kod örüntülerini öğrenir. Sonraki uyarlama adımları (fine-tuning, RLHF) bu altyapı üzerine inşa edilir; dolayısıyla pre-training kalitesi nihai modelin tavanını belirler. İyi bir pre-training verisi olmadan ne kadar gelişmiş fine-tuning yapılırsa yapılsın model belirli bir performans düzeyinin ötesine geçemez.
Pre-training Görevleri
Kausal Dil Modellemesi
Sol-sağ tahmin; model her adımda önceki tüm tokenlere bakarak bir sonrakini öngörür. GPT serisi bu yaklaşımı kullanır.
Maskelemeli Dil Modellemesi
Tokenların %15'i maskelenir, model bağlamdan geri kazanır. BERT ve RoBERTa bu yöntemle eğitilir; kodlayıcı modeller için uygundur.
Sonraki Cümle Tahmini
BERT'te kullanılan yardımcı görev; iki cümlenin gerçekte ardışık olup olmadığını öğretir ve söylem anlayışını artırır.
Öz-Denetimli Görevler
Görüntü-metin eşleştirme, ses-metin hizalama gibi çok modlu görevler de pre-training kapsamında gerçekleştirilebilir.
Pre-training Sonrası Uyarlama Aşamaları
- check_circle İnce Ayar (Fine-tuning): Alan özelindeki veriyle tüm veya belirli katmanların ağırlıkları güncellenir; tıp, hukuk, yazılım gibi alanlara özelleştirilir.
- check_circle RLHF: İnsan tercih etiketlerinden ödül modeli öğrenilir; PPO ile politika iyileştirilir; GPT-4 ve Claude bu aşamadan geçer.
- check_circle Instruction Tuning: Çeşitli görev talimatları ve cevap çiftleriyle model doğal dil direktiflerini izlemeyi öğrenir.
- check_circle PEFT (LoRA/QLoRA): Tüm ağırlıklar yerine küçük adaptör katmanları eğitilir; hesaplama maliyeti dramatik biçimde düşer.
Sıkça Sorulan Sorular
- check_circle Pre-training ve fine-tuning arasındaki fark nedir?: Pre-training büyük ham veriyle genel bilgi altyapısı kurar; fine-tuning bu altyapıyı belirli görev veya alana uyarlar. Pre-training haftalarca sürer ve milyonlarca dolar maliyet doğurabilirken fine-tuning saatler-günler içinde tamamlanabilir.
- check_circle Herkes pre-training yapabilir mi?: Küçük modeller (1-7B) için erişilebilir GPU kümesiyle mümkündür. GPT-4 ölçeğinde pre-training yalnızca büyük laboratuvarlara uygun maliyette gerçekleştirilebilir. Açık kaynak modelleri indirmek ve fine-tune etmek çok daha yaygın ve pratik yaklaşımdır.
- check_circle Continual pre-training nedir?: Mevcut bir pre-trained modelin yeni verilerle (güncel haberler, yeni alan dokümanları) ek eğitime alınmasıdır; sıfırdan eğitim yerine bilgi tabanını genişletmek için uygun maliyetli bir yöntemdir.