tag AudioSet

Bu sayfada AudioSet etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Audio Classification (Ses Sınıflandırma)

Ses Sınıflandırma (Audio Classification), bir ses sinyalinin içeriğini otomatik olarak belirlenmiş kategorilere atayan makine öğrenimi ve derin öğrenme sürecidir. Geleneksel ses işleme yöntemleri elle tasarlanmış özelliklere (MFCC, mel-spektrogram gibi) dayanırken, modern derin öğrenme modelleri bu temsilleri doğrudan girdi alarak sınıflandırma görevini otomatik özellik çıkarımıyla gerçekleştirir. En yaygın yaklaşım, ses sinyalini görsel bir frekans-zaman temsili olan mel-spektrograma dönüştürmek ve ardından bu görüntü üzerinde evrişimli sinir ağları (CNN) uygulamaktır. Bu yaklaşım, bilgisayarlı görme alanındaki ilerlemelerin ses sınıflandırmaya başarıyla aktarılmasını sağlamıştır. YAMNet ve PANN (Pre-trained Audio Neural Networks) gibi büyük ölçekli ön eğitimli modeller, transfer learning aracılığıyla küçük veri kümeleri için de yüksek başarım sunmaktadır. Ses sınıflandırma problemleri çeşitli biçimler alabilir: müzik türü tanıma (pop, rock, caz), kentsel ses tanıma (araba kornası, müzik aleti, insan sesi), çevresel ses sınıflandırma (yağmur, rüzgar, hayvan sesleri), tıbbi ses analizi (öksürük, nefes sesleri, kalp atışı) ve konuşma/müzik/gürültü ayrımı bunların başında gelmektedir. Değerlendirme metrikleri problemin türüne göre değişir: ikili sınıflandırmada F1 skoru ve AUC, çok sınıflı görevlerde doğruluk ve karışıklık matrisi, çok etiketli görevlerde ise mAP (mean Average Precision) tercih edilir. Google'ın AudioSet veri kümesi 632 ses kategorisi ve yaklaşık 2 milyon etiketli video klipiyle genel amaçlı ses sınıflandırma modellerinin eğitimini mümkün kılmaktadır. Ses sınıflandırma, yapay zeka uygulamalarında artmakta olan önemiyle akıllı ses işleme ekosisteminin temel bir bileşeni hâline gelmiştir.

arrow_forward