Instruction Tuning (Komut Ayarı)
Instruction Tuning (Komut Ayarı veya Talimat İnce Ayarı), önceden eğitilmiş dil modellerini insan yazılı talimat-yanıt çiftleriyle ince ayar yaparak modelin çeşitli görevleri takip etme becerisini geliştiren bir eğitim yöntemidir. 2021'de Google'ın FLAN modeli ve Stanford'un Alpaca çalışmasıyla popülerleşen bu teknik, bugün neredeyse tüm kullanıcıya dönük LLM'lerin eğitim süreçlerinin ayrılmaz parçasıdır.
Instruction tuning'den önce dil modelleri yalnızca sonraki tokeni tahmin etmek üzere eğitilirdi; bu modeller doğrudan kullanıcı talimatlarını takip etmekte yetersiz kalırdı. Instruction tuning, çok sayıda ve çeşitli görevleri kapsayan veri setiyle modeli fine-tune eder: özetleme, soru yanıtlama, çeviri, sınıflandırma, kod yazma. Böylece model yeni, görülmemiş görevleri sıfır-atış (zero-shot) veya az-atış (few-shot) biçiminde takip edebilir hâle gelir.
Kaliteli instruction tuning için veri kalitesi, çeşitliliği ve talimat-yanıt uyumluluğu kritiktir. LIMA çalışması, 1000 yüksek kaliteli örnek bile yeterince çeşitliyse güçlü instruction following sağlayabileceğini göstermiştir. Günümüzde büyük ölçekli modeller için hem insan yazılı hem de LLM ile sentetik olarak üretilmiş instruction veri setleri kullanılmaktadır. Instruction tuning sonrası RLHF veya DPO ile pekiştirme, modeli daha da kullanıcı dostu hâle getirir.