Sentetik Veri LLM Eğitimi Veri Üretimi Phi-4 Model Distilasyon Fine-tuning

Sentetik Veri Nedir? LLM Eğitiminde Yapay Veri Üretiminin Gücü

person Yapay Zeka Uzmanı

Tıbbi teşhis için bir model eğitmek istiyorsunuz. Gerçek hasta kayıtları KVKK ve HIPAA kapsamında; bunları paylaşamazsınız. Ya da nadir bir arıza türü için 50.000 eğitim örneğine ihtiyacınız var ama elinizde 500’den az var. Belki de hedef dil sorun çıkarıyor: Türkçe için İngilizce kadar büyük annotated corpus bulmak gerçekten güç.

Bu üç sorunun tek cevabı var: sentetik veri.

2026’da en çok konuşulan küçük modellerden Phi-4, Gemma 3 ve Qwen 3, büyük ölçüde yapay üretilmiş eğitim verisine dayandı. GPT-4o gibi büyük modellerin ürettiği milyarlarca yüksek kaliteli örnek, bu küçük modelleri hem doğruluk hem verimlilik açısından eski nesil devlerle rekabet eder hale getirdi. Peki sentetik veri tam olarak nedir, nasıl üretilir ve nerelerde işe yaramaz?

Öğretmen modelden öğrenci modele veri akışını gösteren modern infografik

Sentetik veri nedir?

Sentetik veri, gerçek olay ya da insanlardan doğrudan toplanmak yerine algoritmik yöntemlerle üretilen veridir. İstatistiksel modeller, kural motorları ya da büyük dil modelleri bu üretimi yapabilir; çıktı gerçek verinin dağılımını ve özelliklerini taklit eder ama kaynakta herhangi bir gerçek kullanıcı ya da olay yoktur.

Görüntü işlemede bu kavram eskidir: video oyunu motorlarından elde edilen sahne görüntüleri, nesne tanıma modellerini eğitmek için on yılı aşkın süredir kullanılıyor. Metin için tablo çok farklıydı; gerçekçi, bağlamlı ve gramer açısından doğru cümleler üretmek bir zamanlar çözümsüz bir problemdi. GPT-4 ve benzeri modellerin ortaya çıkmasıyla bu engel kalktı.

Sözlük tanımı: Sentetik veri, gerçek dünya gözlemlerine değil algoritmik senteze dayanan yapay veri kümesidir. Eğitim, test ve değerlendirme aşamalarında gerçek verinin yerini kısmen ya da tamamen tutabilir.

Gerçek veriyle fark şu: gerçek veri insan davranışı, karar ya da ölçüm içerir; özgünlüğü yüksektir ama miktarını artırmak zordur ve çoğu zaman hassas bilgi barındırır. Sentetik veri tamamen üretildiği için hem miktarını hem formatını tam istediğiniz gibi ayarlayabilirsiniz; gizlilik riski yoktur. Ama kalitesi üretim yöntemine doğrudan bağlıdır: kötü bir jeneratör, hatalı kalıpları kalıcı hale getirir.

Neden sentetik veriye ihtiyaç var?

Veri kıtlığı. Çoğu gerçek dünya görevi için yeterli etiketli örnek yoktur. Tıbbi görüntüleme modellerini eğitmek için binlerce nadir hastalık örneği gerekir; bu kadar veriye ulaşmak yıllarca sürebilir. Sentetik veri bu açığı kısa sürede kapatır.

Telif ve lisans sorunları. İnternet metni büyük bölümüyle telif hakları kapsamındadır. Model eğitimi için bu verinin kullanımı çeşitli hukuki tartışmalara zemin hazırladı. Sentetik veri, içeriği sıfırdan ürettiği için bu sorunu ortadan kaldırır.

Gizlilik ve uyumluluk. Sağlık, finans ve hukuk gibi sektörlerde gerçek verinin işlenmesi sıkı yasal düzenlemelere tabidir. Sentetik veri bu alanlar için hem eğitim hem test verisi üretmenin en temiz yolunu sunar.

Nadir ve tehlikeli senaryolar. Otonom araç sistemleri kaza senaryolarıyla eğitilmeli; ama gerçek kaza verisi hem az hem etik sorun doğurur. Simülasyon tabanlı sentetik veri bu boşluğu doldurur.

Gerçek veri kısıtlamaları ile sınırsız sentetik veri üretiminin karşılaştırmalı diyagramı

Sentetik veri üretim teknikleri

Güçlü modelden damıtma (teacher → student)

2024-2026 döneminin baskın yöntemi bu. GPT-4o ya da Claude Opus gibi güçlü bir “öğretmen” model, binlerce soru-cevap çifti, akıl yürütme zinciri ya da kod örneği üretir. Bu verilerle daha küçük ve hesaplama açısından verimli bir “öğrenci” model eğitilir. Öğrenci, öğretmenin kapasitesinin önemli bir bölümünü çok daha az parametreyle yakalar.

Phi-4 bu yöntemin en iyi belgelenmiş örneği. Microsoft araştırmacıları ders kitabı kalitesinde milyarlarca sentetik token oluşturdu; 14 milyar parametreli model, pek çok 70B modeli geride bıraktı. Veri miktarı değil, veri kalitesi belirleyiciydi.

Kural tabanlı ve şablon yöntemler

Eski ve hâlâ geçerli bir yaklaşım. Belirli sözdizimi kalıplarına uyan cümleler otomatik üretilir; özellikle yapılandırılmış çıktılar (JSON, SQL, form verileri) için çok işe yarar. Python’da Faker kütüphanesi bu kategorinin en bilinen aracıdır: gerçekçi isim, adres, telefon numarası, kredi kartı verisi üretir; bankacılık ve fintech sistemlerini test etmek için yaygın kullanılır.

from faker import Faker

fake = Faker("tr_TR")  # Türkçe locale

for _ in range(5):
    print({
        "ad": fake.name(),
        "sehir": fake.city(),
        "iban": fake.iban(),
        "email": fake.email(),
    })

Veri büyütme (augmentation)

Mevcut gerçek veriniz varsa ama miktarı yetersizse augmentation tercih edilir. Bir cümleyi farklı şekillerde parafrazlamak, çevirip geri çevirmek (back-translation), rastgele kelime ekleme ya da çıkarma; bunların hepsi eğitim setini genişletir. NLP görevlerinde belge sınıflandırma, duygu analizi ve NER için augmentation tatmin edici sonuçlar veriyor.

Simülasyon tabanlı yöntemler

Oyun motorları (Unreal Engine, Unity), robotik simülatörler ve kod çalıştırma ortamları bu kategoriye girer. Otonom araçlar için yüzlerce farklı yol şeridini ve hava koşulunu simüle etmek; kod hata ayıklama için milyonlarca işlevsel kod parçacığı üretmek bu yöntemle mümkün. LLM’lerin matematiksel akıl yürütmeyi öğrenmesi için sentetik matematik problemleri de bu kategoriye giriyor.

Gerçek dünya örnekleri

Phi-4: 14 milyar parametreyle 70 milyarı geçmek

Microsoft’un 2024 sonunda yayınladığı Phi-4, sentetik verinin ne kadar güçlü olduğunu somut rakamlarla ortaya koydu. Model yalnızca yüksek kaliteli ders kitabı tarzı sentetik veri üzerinde eğitildi. Matematik akıl yürütmede, bilim sorularında ve kodlamada 70 milyar parametreli Llama 2 70B’yi geride bıraktı; bazı benchmark’larda GPT-3.5’i de aştı.

Phi-4’ün bu performansı veri miktarından değil, kalite filtrelerinden geldi. Araştırmacılar her sentetik örneği eğitim değeri açısından puanladı; düşük kaliteli örnekler eğitim setine girmedi. Bu süreç “veri damıtma” olarak adlandırılıyor ve küçük dil modellerinin arka planında yatan temel mekanizma budur.

LIMA: 1.000 örnek yeterli mi?

Stanford’un 2023’te yayınladığı LIMA (Less Is More for Alignment) makalesi, fine-tuning için miktarın değil kalitenin belirleyici olduğunu gösterdi. 65 milyar parametreli LLaMA modeli yalnızca 1.000 dikkatle seçilmiş örnek üzerinde fine-tune edildi. Sonuç, o dönemde RLHF ile kapsamlı biçimde eğitilmiş modellere kıyasla bile rekabetçi bulundu.

LIMA sentetik veriyle doğrudan ilişkili olmasa da sonuçları kritik bir çerçeve koydu: eğer 1.000 gerçek yüksek kaliteli örnek yeterliyse, 10.000 yüksek kaliteli sentetik örnek de işe yarar.

Gemma 3 ve Qwen 3

Google’ın Gemma 3 ve Alibaba’nın Qwen 3 serisi, eğitim karmasında sentetik veri kullandığını teknik raporlarında açıkça belirtiyor. Gemma 3’ün 27B varyantı kod, matematik ve talimat takibinde, kısmen sentetik talimat verisiyle, çok daha büyük açık ağırlıklı modellere yaklaşan bir performans sergiledi. Qwen 3’ün teknik raporunda da benzer bir tablo yer alıyor: sentetik kod ve akıl yürütme verisi, modelin problem çözme kapasitesini ölçülebilir biçimde artırdı.

Araçlar ve kütüphaneler

AraçKullanım alanıLisans
DistilabelLLM tabanlı sentetik veri pipeline’ıApache 2.0
FakerKural tabanlı kişisel veri üretimiMIT
ArgillaVeri etiketleme ve kalite incelemeApache 2.0
LM-Format-EnforcerLLM çıktısını JSON/regex’e zorlamaMIT
HuggingFace datasetsVeri seti yönetimi ve pipelineApache 2.0

Distilabel, Argilla tarafından geliştirilen ve özellikle LLM pipeline’ları için tasarlanmış bir kütüphane. Öğretmen model olarak istediğiniz bir LLM API’si bağlayıp sistem talimatları ve soru şablonları tanımlayabilir, büyük ölçekli sentetik veri setleri üretebilirsiniz:

from distilabel.llms import InferenceEndpointsLLM
from distilabel.pipeline import Pipeline
from distilabel.steps.tasks import TextGeneration

pipeline = Pipeline(
    name="sentetik-soru-cevap",
    description="Türkçe soru-cevap çiftleri üretir",
)

llm = InferenceEndpointsLLM(
    model_id="meta-llama/Meta-Llama-3.1-70B-Instruct",
)

task = TextGeneration(
    llm=llm,
    system_prompt=(
        "Türkçe bir soru sor ve detaylı bir cevap ver. "
        "Konu: yapay zeka ve makine öğrenmesi."
    ),
    num_generations=1,
)

pipeline.connect(task)
distiset = pipeline.run(
    parameters={task.name: {"num_rows": 1000}},
)

Bu pipeline 1.000 Türkçe soru-cevap çifti üretir; çıktıyı doğrudan HuggingFace Hub’a yükleyebilir ya da LoRA fine-tuning için kullanabilirsiniz.

Sentetik verinin riskleri ve sınırları

Model collapse: her nesilde kalite kaybının biriktiğini gösteren uyarı diyagramı

Model collapse: kendi kendini bozan döngü

2023’te Nature dergisinde yayınlanan bir makale, “model collapse” olgusunu tanımladı: bir model tamamen sentetik veriye dayalı eğitilir ve bu sentetik veri bir önceki nesil modelden geldiyse, her nesilde bilgi kaybı birikir. Orijinal dağılımın uç noktaları yavaş yavaş kaybolur; model zamanla çok daha dar ve tekrarcı bir çıktı üretmeye başlar.

Bunu şöyle düşünebilirsiniz: bir fotoğrafın fotokopisi alınır, sonra bu fotokopinin fotokopisi… Her geçişte kayıp birikir. İnternet’teki mevcut içerik giderek daha fazla LLM çıktısıyla dolduğundan bu sorun teorik olmaktan çıkıp pratik bir endişeye dönüştü.

Çözüm yolu: gerçek veriyi tamamen dışlamak yerine sentetik ve gerçek veriyi karıştırmak, kalite filtresi uygulamak, yalnızca öğretmen modelden değil farklı kaynaklardan (simülasyon, kural tabanlı sistemler, insan doğrulama) çeşitlendirilmiş veri almak.

Halüsinasyon amplifikasyonu

Öğretmen model hatalı bir gerçek ya da yanıltıcı bir akıl yürütme üretirse, bu hata eğitim verisine girer ve öğrenci modele yerleşir. Üstelik öğrenci bu hatayı gerçek bir kaynaktan değil “otoriter” bir büyük modelden aldığı için daha güvenle tekrarlar. LLM çıktısı doğrudan eğitim verisi olarak kullanıldığında hallüsinasyon denetimi kritik hale gelir.

Distribüsyon kayması

Sentetik veri, gerçek kullanım senaryolarını tam yansıtmayabilir. Ince dil farklılıkları, kültürel nüanslar ve alana özgü jargon için gerçek kullanıcı geri bildirimi olmadan üretilen veri modeli yanlış yönlendirebilir. Türkçe NLP için bu risk özellikle geçerli: Türkçenin morfolojik karmaşıklığını gerçekçi biçimde kapsayan sentetik veri üretmek hâlâ zor.

Ne zaman gerçek verinin yerini tutamaz?

Gerçek insan deneyiminin peşinde olduğunuz durumlarda sentetik veri yetersiz kalır. Duygu analizi için bir modelin gerçek insan yorumlarını öğrenmesi gerekir; sentetik parafrazlar bu dokuyu tam yakalayamaz. Benzer biçimde medikal karar destek sistemlerinde gerçek klinik vakaların önemi büyüktür. Sentetik veri bu bağlamlarda destekleyici olabilir ama birincil kaynak olmamalıdır.

RLAIF: İnsan yerine model geri bildirimi

RLHF (Reinforcement Learning from Human Feedback), dil modellerini insan tercihlerine göre ince ayarlamak için kullanılan yöntemdir. Etkili ama ölçeklenmesi pahalı: her tercih etiketi insan emeği gerektiriyor. 1 milyon tercih çifti için milyonlarca dolar harcamak pekâlâ mümkün.

RLAIF (Reinforcement Learning from AI Feedback) bu ölçek problemini çözmek için öne çıktı. Yaklaşım şu: büyük bir modeli yargıç olarak kullanmak ve tercih etiketlerini insan yerine bu modelden almak. Anthropic’in Constitutional AI yaklaşımı RLAIF’in en tanınmış örneği: önce bir model ilkelere göre kendi çıktısını eleştirir, sonra bu eleştiriler revizyon verisi olarak kullanılır.

Google’ın 2023’te yayınladığı RLAIF araştırması daha da ileriye gitti: Gemini ile eğitilen tercih modelleri, ölçek yeterli olduğunda insan etiketçilerle kıyaslanabilir kaliteye ulaştı. 2026’da yeni nesil küçük modellerin çoğu artık tamamen ya da kısmen yapay tercih verisiyle hizalanıyor.

RLAIF’in sentetik veriyle ilişkisi şu noktada kapanıyor: eğitim verisi sentetik, tercih verisi yapay etiketli olunca insan müdahalesi gereksiz gibi görünebilir. Ama her iki aşamada da gerçek veriden yapılan kalibrasyon örnekleri olmadan model, öğretmenin önyargılarını yükseltilmiş biçimde taşıyabilir.

En iyi uygulamalar

Kalite filtresi ilk adım. Her sentetik örneği puanlayın; model hatası, anlamsız içerik veya distribüsyon dışı örnekleri eğitim setine almayın. Pratik bir kural: dil modeli perplexity skoru çok düşük ya da çok yüksek olan örnekler şüphelidir.

Gerçek veriyle karıştırın. Eğitim setinizin yalnızca %20-30’u sentetik olsa bile model collapse riskini ciddi ölçüde azaltır. Bu oran göreve göre değişir; matematiksel akıl yürütmede daha yüksek sentetik oran tolere edilebilir.

Veri çeşitliliğini aktif yönetin. Tek bir öğretmen modelden alınan veri o modelin önyargılarını taşır. Birden fazla kaynak ya da farklı sistem talimatları kullanarak çeşitlilik yaratın.

İnsan doğrulama örnekleme yapın. Her büyük eğitim çalıştırmasından önce rastgele 50-100 sentetik örneği insan gözünden geçirin. Bu, halüsinasyon veya format hatalarını eğitim başlamadan fark etmenizi kolaylaştırır.

Test seti asla sentetik olmamalı. Modelin gerçekte ne kadar iyi öğrendiğini ölçmek için gerçek veriye ihtiyacınız var. Eğitim verinizi sentetikleştirirken test setinizi gerçek örneklerden derleyin; aksi takdirde model değerlendirmesi anlamsızlaşır.

Daha ileri

Sentetik veri, LLM ekosisteminin kritik bir üretim malzemesi haline geldi. Phi-4 ve diğer küçük dil modellerini bu kadar kompakt tutarken rekabetçi yapan başlıca etken budur.

Fine-tuning için kendi sentetik veri setinizi oluşturmaya hazırsanız Türkçe LLM fine-tuning rehberimiz başlangıç için doğru yer. Sentetik verinin ham kalitesini ölçmek içinse LLM eval kavramlarına bakmak işe yarayacaktır.