tag Veri

Eğitim Verisi (Eğitim Verisi)

Bu sayfada Veri (Eğitim Verisi (Eğitim Verisi)) etiketi ile işaretlenmiş 2 yapay zeka kavramını bulabilirsiniz.

Eğitim Verisi (Training Data), bir makine öğrenmesi veya derin öğrenme modelinin öğrenme sürecinde kullandığı, modelin parametrelerini güncellemek ve genelleme kapasitesini geliştirmek amacıyla işlenen veri kümesidir. Modelin öğrenebileceği her şey eğitim verisinden gelir; bu nedenle veri kalitesi ve çeşitliliği modelin performansını doğrudan belirler. Eğitim verisi iki temel biçimde olabilir. Etiketli veri, her giriş örneğine doğru çıktı etiketinin atandığı veridir; denetimli öğrenmede bu format zorunludur. Bir görüntü sınıflandırıcısı için binlerce 'kedi/köpek' etiketli fotoğraf veya duygu analizi için cümle-duygu çiftleri etiketli veri örnekleridir. Etiketsiz veri ise önceden işareti olmayan ham verilerdir; dil modelleri milyarlarca etiketlenmemiş İnternet metni üzerinde öz-denetimli öğrenmeyle eğitilir. Eğitim verisinin kalitesi birden çok boyut içerir: doğruluk (yanlış etiketlerin az olması), temsil gücü (gerçek dünya dağılımını yansıtması), çeşitlilik (farklı senaryoları kapsaması) ve önyargısızlık (belirli grupları haksız biçimde temsil etmemesi). Veri önyargısı (data bias) modelin adaletsiz çıktılar üretmesine yol açar; İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme (RLHF) bu sorunu kısmen gidermek için kullanılan tekniklerden biridir. Veri mühendisliği uygulamaları arasında veri artırma (rotasyon, kırpma, yeniden örnekleme), sentetik veri üretimi ve veri temizleme (aykırı değerlerin, duplikatların kaldırılması) yer alır. Eğitim-doğrulama-test ayrımı standart protokoldür: model yalnızca eğitim verisiyle öğrenir, doğrulama verisiyle hiperparametreler ayarlanır, test verisi ise yalnızca nihai değerlendirme için kullanılır. Verilerin telif hakkı ve gizlilik boyutu da giderek önem kazanmaktadır. GDPR ve benzeri düzenlemeler kişisel veri kullanımını sınırlarken Creative Commons veya açık lisanslı veri kümeleri yasal belirsizlik olmadan kullanılabilir. Model kartları artık eğitim veri kaynağını şeffaf biçimde açıklamayı bir iyi pratik olarak önermektedir.

dataset

Eğitim Verisi (Eğitim Verisi)

Eğitim Verisi (Training Data), bir makine öğrenmesi veya derin öğrenme modelinin öğrenme sürecinde kullandığı, modelin parametrelerini güncellemek ve genelleme kapasitesini geliştirmek amacıyla işlenen veri kümesidir. Modelin öğrenebileceği her şey eğitim verisinden gelir; bu nedenle veri kalitesi ve çeşitliliği modelin performansını doğrudan belirler. Eğitim verisi iki temel biçimde olabilir. Etiketli veri, her giriş örneğine doğru çıktı etiketinin atandığı veridir; denetimli öğrenmede bu format zorunludur. Bir görüntü sınıflandırıcısı için binlerce 'kedi/köpek' etiketli fotoğraf veya duygu analizi için cümle-duygu çiftleri etiketli veri örnekleridir. Etiketsiz veri ise önceden işareti olmayan ham verilerdir; dil modelleri milyarlarca etiketlenmemiş İnternet metni üzerinde öz-denetimli öğrenmeyle eğitilir. Eğitim verisinin kalitesi birden çok boyut içerir: doğruluk (yanlış etiketlerin az olması), temsil gücü (gerçek dünya dağılımını yansıtması), çeşitlilik (farklı senaryoları kapsaması) ve önyargısızlık (belirli grupları haksız biçimde temsil etmemesi). Veri önyargısı (data bias) modelin adaletsiz çıktılar üretmesine yol açar; İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme (RLHF) bu sorunu kısmen gidermek için kullanılan tekniklerden biridir. Veri mühendisliği uygulamaları arasında veri artırma (rotasyon, kırpma, yeniden örnekleme), sentetik veri üretimi ve veri temizleme (aykırı değerlerin, duplikatların kaldırılması) yer alır. Eğitim-doğrulama-test ayrımı standart protokoldür: model yalnızca eğitim verisiyle öğrenir, doğrulama verisiyle hiperparametreler ayarlanır, test verisi ise yalnızca nihai değerlendirme için kullanılır. Verilerin telif hakkı ve gizlilik boyutu da giderek önem kazanmaktadır. GDPR ve benzeri düzenlemeler kişisel veri kullanımını sınırlarken Creative Commons veya açık lisanslı veri kümeleri yasal belirsizlik olmadan kullanılabilir. Model kartları artık eğitim veri kaynağını şeffaf biçimde açıklamayı bir iyi pratik olarak önermektedir.

arrow_forward
psychology

Makine Öğrenmesi (Makine Öğrenmesi)

Makine Öğrenmesi (Machine Learning), bilgisayar sistemlerinin açık kural programlaması olmaksızın verilerden otomatik olarak öğrenmesini ve deneyimle gelişmesini sağlayan yapay zeka alt dalıdır. 1959 yılında Arthur Samuel tarafından tanımlanan bu yaklaşımda sistemler, büyük veri kümelerindeki örüntüleri tespit ederek öngörü ve karar üretme kapasitesi kazanır. Makine öğrenmesi algoritmalar üç temel paradigma üzerine kurulur. Denetimli öğrenmede model, etiketlenmiş girdi-çıktı çiftleriyle eğitilir; e-posta spam filtresi veya kredi riski tahmini bu paradigmanın yaygın örnekleridir. Denetimsiz öğrenmede ise etiket yoktur; algoritma veri içindeki gizli yapıları, kümeleri veya boyutu indirger. Piyasa segmentasyonu ve anomali tespiti bu yaklaşımla çözülür. Pekiştirmeli öğrenme paradigmasında bir ajan, çevreyle etkileşim kurarak ödül sinyallerini maksimize eden politikayı öğrenir; oyun oynayan yapay zekalar ve robot kontrolü burada öne çıkar. Algoritma ailesi zengindir: doğrusal ve lojistik regresyon, karar ağaçları, rastgele ormanlar, destek vektör makineleri, k-en yakın komşu, naif Bayes ve topluluk yöntemleri (XGBoost, AdaBoost) en yaygın kullanılan yöntemlerdir. Derin öğrenme, makine öğrenmesinin çok katmanlı yapay sinir ağları kullanan özel bir alt dalıdır. Makine öğrenmesi sürecinde özellik mühendisliği kritik rol oynar; ham veri, modelin öğrenmesini kolaylaştıracak anlamlı giriş özniteliklerine dönüştürülür. Eğitim/doğrulama/test veri ayrımı, çapraz doğrulama ve hiperparametre ayarı performansı optimize etmenin standart yöntemleridir. Aşırı uyum ve yetersiz uyum ikilemini dengelemek, başarılı bir modelin temel kalite kriteri olarak kabul edilir.

arrow_forward