Ses Sınıflandırma (Audio Classification) Nedir?

Ses Sınıflandırma Nasıl Çalışır?

Ses sınıflandırma sürecinde ham ses sinyali önce ön işlemden geçirilir: Fourier dönüşümü veya kısa zamanlı Fourier dönüşümü (STFT) aracılığıyla frekans bileşenlerine ayrılır, ardından insan kulağının frekans algısını taklit eden mel ölçeğine dönüştürülerek mel-spektrogram elde edilir. Bu iki boyutlu görsel temsil üzerinde CNN modelleri uygulanır. Model eğitimi sırasında, etiketlenmiş ses veri kümesi kullanılarak ağın ağırlıkları optimize edilir. Tek etiketli problemlerde (bir sesin tek bir kategoriye ait olduğu durumlar) kategorik çapraz entropi kaybı kullanılırken, çok etiketli problemlerde (bir ses kaydında aynı anda birden fazla ses türünün bulunması) ikili çapraz entropi tercih edilir. Büyük ölçekli ön eğitimli modeller (YAMNet gibi), genel ses özelliklerini öğrenmiş ağırlıklarıyla transfer learning için güçlü bir başlangıç noktası sunar. Küçük veri kümelerinde bu modellerin son katmanları yeni kategorilere uyarlanarak (fine-tuning) etkili sonuçlar elde edilir.

Başlıca Modeller ve Veri Kümeleri

YAMNet

Google tarafından geliştirilen, AudioSet üzerinde eğitilmiş MobileNet tabanlı ses sınıflandırma modeli. 521 ses kategorisini tanır, transfer learning için yaygın kullanılır.

PANN (Pre-trained Audio Neural Networks)

AudioSet üzerinde ön eğitimli büyük kapasiteli ağlar ailesi. CNN14, ResNet38 gibi mimarilere dayalı güçlü ses temsil öğrenicileridir.

BEATs

Microsoft'un Transformer tabanlı ses ön eğitim modeli; self-supervised öğrenme ile güçlü genel ses temsilleri üretir ve birden fazla sınıflandırma kıyaslamasında üst sıralardadır.

AudioSet

Google'ın derlediği 632 kategorili, ~2 milyon 10 saniyelik YouTube klibinden oluşan çok etiketli ses veri kümesi. Alandaki en kapsamlı standart referans veri kümesidir.

Uygulama Alanları

check_circle Müzik Bilgi Geri Çağırımı: Müzik türü (pop, caz, klasik), enstrüman tespiti ve ruh hali sınıflandırması; akıllı müzik öneri sistemlerinin temel bileşeni.
check_circle Kentsel Ses Analizi: Şehir ortamlarındaki trafik, inşaat, alarm ve doğa seslerini izleyerek gürültü haritası oluşturma ve uyarı sistemleri geliştirme.
check_circle Tıbbi Ses Tanısı: Öksürük, nefes, kalp ve akciğer seslerinin sınıflandırılması; hastalık tespiti için düşük maliyetli tarama aracı olarak kullanılma potansiyeli.
check_circle Akıllı Ev ve IoT Güvenliği: Cam kırılma, silah sesi veya çocuk ağlaması gibi belirli ses olaylarını tespit eden gömülü cihaz uygulamaları.
check_circle Yaban Hayatı İzleme: Hayvan seslerinin pasif akustik izleme yöntemiyle tanınması; nesli tehlike altındaki türlerin uzaktan tespitinde kullanılma.

Sık Sorulan Sorular

check_circle Ses sınıflandırma ile konuşma tanıma arasındaki fark nedir?: Konuşma tanıma (ASR), ses içindeki sözcükleri metne dönüştürmeye odaklanırken ses sınıflandırma, sesin genel içeriğini (müzik, gürültü, doğa sesi gibi) kategorize eder. ASR dil modeli gerektirirken ses sınıflandırma genel bir örüntü tanıma görevidir.
check_circle Neden mel-spektrogram kullanılır?: Ham ses dalgası zaman serisinin direkt işlenmesi yerine mel-spektrogram tercih edilir çünkü insan kulağının logaritmik frekans algısını taklit eder, CNN için uygun iki boyutlu bir temsil sunar ve gürültüye karşı daha dayanıklıdır.
check_circle Çok etiketli ses sınıflandırma ne demektir?: Bir ses kaydında aynı anda birden fazla ses türü bulunabilir (örn: insan konuşması + arka planda müzik + trafik gürültüsü). Çok etiketli sınıflandırma, bu durumda her kategoriye bağımsız bir tahmin üretir; AudioSet bu tür problemlerin standardıdır.
check_circle mAP skoru nedir ve nasıl yorumlanır?: Mean Average Precision (mAP), çok etiketli sınıflandırma problemlerinde tüm kategorilerdeki ortalama kesinlik-geri çağırım eğrisi alanının ortalamasıdır. 0 ile 1 arasında değer alır; 1.0 mükemmel sınıflandırmayı temsil eder. AudioSet üzerinde en iyi modeller 0.45-0.50 mAP elde etmektedir.