GPT-3’ün 175 milyar parametre ile neden tam bu noktada durdurulduğunu hiç merak ettiniz mi? Ya da Claude, Gemini ve LLaMA gibi modellerde araştırmacıların eğitim başlamadan bütçeyi nasıl hesapladığını? Bu soruların arkasında basit ama güçlü bir matematiksel çerçeve var: scaling laws, yani ölçekleme yasaları.
2020’de OpenAI’dan Jared Kaplan ve ekibi, dil modellerinin performansının üç faktöre göre tahmin edilebilir biçimde arttığını gösterdi: model parametresi (N), eğitim verisi (D) ve hesaplama gücü (C). Bu bulgu, büyük modeli çalıştırmadan önce sonucunu tahmin etmeyi mümkün kıldı; milyarlarca dolarlık eğitim kararları bu hesaplamalar üzerinden verilmeye başlandı.
Scaling law nedir?
Scaling law, bir dil modelinin kayıp fonksiyonunun (loss) parametre sayısı, veri hacmi ve hesaplama bütçesiyle nasıl değiştiğini açıklayan güç yasasıdır. Kaplan ve arkadaşlarının 2020 tarihli çalışması bu ilişkiyi şu sezgisel formülle özetler:
L ≈ A/N^α + B/D^β + C₀
Burada:
- N: model parametre sayısı
- D: eğitim token sayısı
- C: toplam hesaplama bütçesi (FLOPs)
- α, β: güç yasası katsayıları (~0.07 civarı)
- C₀: ulaşılabilir minimum kayıp
Bu formülün en dikkat çekici yanı öngörülebilirliği: küçük ölçekte yapılan deney sonuçları log-log grafikte düz bir çizgi çizer, bu çizgi yukarıya uzatıldığında büyük modelin performansını tahmin etmek mümkün olur. Büyük modeli eğitmeden önce bütçe planlaması yapılabilir.
“Güç yasası” kavramı sezgisel olarak şuna işaret eder: kaynağı iki katına çıkarmak performansı iki katına çıkarmaz, ama öngörülebilir miktarda artırır. Bu ilişki parametreler için de, veri için de, compute için de ayrı ayrı geçerli. Dolayısıyla her üç değişken için de ayrı “scaling eğrisi” çizmek mümkün; hangi değişkenin getirisi düşmeye başladıysa bütçeyi diğerine kaydırmak mantıklı olur.
Üç değişken arasında bir gerilim var: veri sabitken parametre artırmak bir noktadan sonra getiri azaltır; parametre sabitken veri artırmak da benzer bir plato çizer. Optimal performans için üçü birlikte büyümek zorundadır. Kaplan et al., compute bütçesi sabitlendiğinde N ve D için optimal değerleri hesaplayan eşitlikleri de sundu, ama bu eşitlikler Chinchilla’nın 2022’de revize edeceği formüller olarak tarihe geçti.
Chinchilla anı: kurallar yeniden yazıldı
2022 yılına kadar yaygın kabul “ne kadar büyük, o kadar iyi” üzerineydi. GPT-3 175B parametre, PaLM 540B, Gopher 280B. Ama DeepMind’ın Chinchilla çalışması bu anlayışı sarstı.
Jordan Hoffmann liderliğindeki araştırma ekibi, sabit bir hesaplama bütçesi altında modelin parametre sayısı ile eğitim token sayısının eşit oranda büyümesi gerektiğini ortaya koydu. Bu ilişki Chinchilla optimal olarak anılır:
N_opt ∝ C^0.5
D_opt ∝ C^0.5
Compute bütçenizin karekökü kadar hem parametre hem de token hedeflemeniz gerekir. Gopher 280B parametre ile 300 milyar token üzerinde eğitilmişti. Aynı bütçeyle 70B parametreli ama 1.4 trilyon token kullanan Chinchilla modeli Gopher’ı tüm kıyaslamalarda geride bıraktı.
| Model | Parametre | Eğitim Tokeni | Chinchilla Optimal mi? |
|---|---|---|---|
| GPT-3 | 175B | 300B | Hayır (az veri) |
| Gopher | 280B | 300B | Hayır (az veri) |
| Chinchilla | 70B | 1.4T | Evet |
| LLaMA 2 (70B) | 70B | 2T | Yakın |
| Mistral 7B | 7B | ~1T | Verimli |
Chinchilla, büyük model = iyi model varsayımını çürüttü. Gerçek soru şu olmalı: bu bütçeyle en verimli N/D dengesi nedir?
Bu soruyu sormak, o zamana kadar pek kimsenin sormadığı bir şeydi. Model büyüklüğüne odaklanmak, veri miktarını ikinci plana itiyordu. Chinchilla’nın etkisi yalnızca akademik kalmadı; Meta’nın LLaMA serisinde, Mistral’ın modellerinde ve sonraki yıllarda çıkan pek çok açık kaynak modelde Chinchilla optimal ilkesinin izlerini görmek mümkün. Parametre sayısı düşürülüp eğitim tokeni artırıldı, toplam hesaplama bütçesi benzer kaldı, ama sonuçlar iyileşti.
Emergent abilities: beklenmedik sıçramalar
Scaling law’ların en tartışmalı boyutu, belirli bir parametre eşiğinin aşılmasıyla birlikte modellerde daha önce gözlemlenmeyen yeteneklerin aniden ortaya çıkmasıdır. Jason Wei ve ekibi 2022’de bu fenomeni “emergent abilities” olarak tanımladı.
Örnek olarak aritmetik çıkarım: 10 milyar parametrenin altındaki modeller bu görevde neredeyse rastlantı düzeyinde kalırken, eşik aşıldığında performans ani bir sıçrama yapar. Çok adımlı mantık yürütme ve kod üretiminde de benzer örüntüler gözlemlendi.
Ama bu keşif beraberinde bir tartışma getirdi. Chain of Thought Prompting üzerine yapılan çalışmalar, görünür sıçramaların kısmen ölçüm yönteminin doğrusal olmayan yapısından kaynaklandığını gösterdi; daha kademeli metrikler kullanıldığında sıçramalar da daha kademeli görünür.
Pratik sonuç yine de değişmez: daha büyük modeller, küçük modellerde gözükmeyen becerileri gösterir. Bu durum araştırmacıları ikiye böldü: bir kamp, ölçeklemeyi sürdürdükçe sürprizlerin devam edeceğini savunurken, diğer kamp bu yeni yeteneklerin büyük ölçüde mimariye veya eğitim verisine gömülü olduğunu, ölçeğin sadece onları görünür kıldığını öne sürüyor. Akıl yürüten modellere ilişkin tartışmalar büyük ölçüde bu gözlem üzerine kurulu.
Test-time compute: scaling’in yeni ekseni
Kaplan et al.‘ın orijinal çerçevesi eğitim sürecine odaklanıyordu. 2024-2026 döneminde araştırmacılar farklı bir soruyu gündeme taşıdı: çıkarım sırasında daha fazla düşünme süresi modeli daha iyi yapar mı?
Cevap “evet” çıktı. OpenAI’ın o1 modeli, bir problemi çözerken gizli bir “düşünce zinciri” kullanır; daha uzun düşünme, daha iyi sonuç verir. o3 ve DeepSeek-R1 bu yaklaşımı farklı biçimlerde hayata geçirdi.
Akıl yürüten modellerin yükselişi, scaling tartışmasını farklı bir boyuta taşıdı: eğitim bütçesi ile çıkarım bütçesi arasındaki denge. Sabit bir eğitim modeliyle daha uzun çıkarım süresi tahsis ederek performans artışı elde etmek mümkün. Bu, parametre büyütmekten farklı ama tamamlayıcı bir yol.
Veri tavanı problemi
Scaling yasaları veri için de geçerli: daha fazla token, daha iyi model. Ama burada yapısal bir kısıt var. İnsanların internet üzerinde ürettiği yüksek kaliteli metin, sonlu bir havuz. Mevcut tahminlere göre GPT-4 sınıfı modeller bu havuzun büyük bölümünü zaten tüketti.
Çözüm sentetik veriye yönelmek. Model kendi çıktısını ya da başka modellerin çıktısını eğitim verisi olarak kullanabilir. Sentetik veri üretimi, son iki yılda araştırma gündeminin önemli bir parçası haline geldi. Ama sınırları var: düşük kaliteli sentetik veri, modeli kendi hatalarıyla besleyerek performansı düşürebilir; bu fenomen “model collapse” olarak tanımlanır.
Ham internet verisi filtreden geçirilmeden kullanılamaz. Common Crawl gibi büyük veri setleri petabayt boyutunda ham metin barındırır, ancak bu metnin kaliteli kısmı çok daha küçük bir dilim oluşturur. Tekrar satırlarını ayıklamak, düşük kaliteli siteleri devre dışı bırakmak ve içerik denetimi uygulamak, eğitim verimliliğini token sayısından çok daha fazla etkileyebilir. FineWeb ve DCLM gibi dikkatle hazırlanmış açık veri setleri bu gerçeğin pratik yansımasıdır; bu setlerle yürütülen ön eğitim deneyleri, ham tarama verisine kıyasla çok daha yüksek model kalitesi ve veri verimliliği elde ettiğini gösterdi.
Yani veri scaling problemi hem nicelik hem nitelik meselesi. Yeterli token olmadan parametre büyütmek boşa gider; düşük kaliteli tokenle model büyütmek ise daha kötü sonuç doğurur.
Küçük ama güçlü: verimlilik üzerine
Chinchilla’nın en pratik dersi şu: büyük parametre sayısı tek başına bir hedef değil. Compute bütçesini parametre ve veri arasında doğru dağıtmak daha belirleyici.
Bu anlayış küçük ama kaliteli modellerin yükselişini hızlandırdı. Phi-4, Gemma 3, Qwen 3 gibi modeller 7B-14B parametre aralığında iki üç yıl öncesinin 70B modellerini geçer hale geldi. Bunun arkasında iki teknik var.
Birincisi bilgi damıtma: büyük bir “öğretmen” model küçük bir “öğrenci” modeli eğitir, böylece büyük parametre sayısına gerek kalmadan yüksek performans elde edilir. Knowledge distillation bu yöntemin teorik ve pratik altyapısını sunar. İkincisi quantization: model ağırlıklarının hassasiyetini düşürerek (FP16, INT8, INT4) boyutu küçültmek çıkarım maliyetini ciddi biçimde azaltır. GGUF, AWQ ve GPTQ formatları bu süreci standartlaştırdı.
İkisi bir arada, Chinchilla optimal prensibiyle örtüşür: maksimum parametre değil, maksimum verim.
Araştırmacı ve geliştirici için pratik çıkarımlar
Scaling laws teorik bir çerçeve olarak başladı ama bugün çok somut kararları yönlendiriyor.
Eğitim bütçesi planlamak için önce küçük ölçekli denemeler yapın. Kayıp eğrisi bu denemelerden çıkan log-log doğrusuna bakarak tahmin edilir; büyük modeli çalıştırmadan bütçe hesabı yapmak mümkün olur.
Model seçerken yalnızca parametre sayısına bakmayın. Kaç token üzerinde eğitildiği, hangi veri kalitesinin kullanıldığı ve Chinchilla optimaline ne kadar yaklaşıldığı, parametre sayısı kadar belirleyicidir. Fine-tuning mi, RAG mı? sorusu da bu çerçeveye girer: küçük ama iyi eğitilmiş bir taban model, doğru stratejiyle çok daha büyük modelleri geride bırakabilir.
GPU-saat ile FLOPs arasındaki dönüşüm bütçe planlaması için zorunlu bir hesaplama. Chinchilla formülü bu hesap için referans noktası işlevi görür.
Bunlara ek olarak, open-source modellerin teknik raporlarını okumak, hem eğitim koşullarını hem Chinchilla’ya ne kadar yaklaşıldığını anlamak için iyi bir başlangıç noktası. Meta’nın LLaMA 3, Mistral, Qwen ve Phi ailelerinin teknik raporlarında bu hesaplar açıkça yer alıyor. Kendi projeniz için bir taban model seçerken bu rakamları karşılaştırmak, salt doğruluk skorlarına bakmaktan çoğu zaman daha açıklayıcı.
Son düşünceler
Scaling laws, bir modelin performansının eğitim başlamadan önce tahmin edilebileceğini gösterdi. Kaplan et al. parametre/veri/compute üçgenini matematiksel bir forma döktü; Chinchilla bu üçgendeki dengeyi yeniden ayarladı; emergent abilities eşik geçildikten sonra ne olacağını tartışmaya açtı; test-time compute ise hesaplamanın nerede yapıldığı sorusunu gündemin üstüne taşıdı.
Büyük dil modellerinde büyüme devam edecek, ama nereye ne kadar yatırım yapılacağı artık bu yasalara bakılarak belirleniyor. Scaling laws’ı bilmek, günümüz LLM tartışmalarını takip etmek için işe yarayan bir zemin.



