content_copy Fotokopinin Fotokopisi
Model çöküşünü anlamak için bir belgeyi fotokopi makinesinde çoğalttığınızı hayal edin. Sonra o fotokopinin fotokopisini çekin, sonra onun da fotokopisini... 10. nesil fotokopide metin okunamaz hale gelir ve sadece siyah bir leke kalır. Büyük dil modelleri (LLM) de aynı şekildedir; başka bir LLM'in ürettiği sentetik metinle eğitildiklerinde insan dilindeki doğal azınlıkları, ince mizahı ve karmaşık mantığı unutarak tekdüze, tekrara düşen ve anlamsız çıktılar üretmeye başlarlar.
Çöküşün Nedenleri
delete_forever Sentetik Kirlilik
İnternette ChatGPT ile yazılmış milyonlarca makalenin, yeni modellerin eğitim verisi (dataset) havuzunu kirletmesi.
insights Kuyruk Verisi Kaybı
İnsan dili çok çeşitlidir. Ancak modeller ortalamayı alarak en güvenli kelimeleri seçer. Model kendi verisiyle eğitilince dilin istisnai ve nadir kısımları (kuyruk verisi) sonsuza dek silinir.
quiz Sıkça Sorulan Sorular (FAQ)
- check_circle Sentetik veri faydalı değil miydi?: Sentetik veri dikkatle ve kontrollü bir ortamda üretilirse çok faydalıdır. Model çöküşü, internetten rastgele toplanan verilerin (scraping) içinde ne kadar AI üretimi çöp olduğunu ayırt edememekten kaynaklanır.