Audio Classification (Ses Sınıflandırma)

Ses Sınıflandırma, bir ses sinyalinin içeriğini derin öğrenme ile müzik, konuşma veya çevresel ses gibi önceden belirlenmiş kategorilere otomatik olarak atan makine öğrenmesi görevidir.

Ses Sınıflandırma (Audio Classification), bir ses sinyalinin içeriğini otomatik olarak belirlenmiş kategorilere atayan makine öğrenimi ve derin öğrenme sürecidir. Geleneksel ses işleme yöntemleri elle tasarlanmış özelliklere (MFCC, mel-spektrogram gibi) dayanırken, modern derin öğrenme modelleri bu temsilleri doğrudan girdi alarak sınıflandırma görevini otomatik özellik çıkarımıyla gerçekleştirir. En yaygın yaklaşım, ses sinyalini görsel bir frekans-zaman temsili olan mel-spektrograma dönüştürmek ve ardından bu görüntü üzerinde evrişimli sinir ağları (CNN) uygulamaktır. Bu yaklaşım, bilgisayarlı görme alanındaki ilerlemelerin ses sınıflandırmaya başarıyla aktarılmasını sağlamıştır. YAMNet ve PANN (Pre-trained Audio Neural Networks) gibi büyük ölçekli ön eğitimli modeller, transfer learning aracılığıyla küçük veri kümeleri için de yüksek başarım sunmaktadır. Ses sınıflandırma problemleri çeşitli biçimler alabilir: müzik türü tanıma (pop, rock, caz), kentsel ses tanıma (araba kornası, müzik aleti, insan sesi), çevresel ses sınıflandırma (yağmur, rüzgar, hayvan sesleri), tıbbi ses analizi (öksürük, nefes sesleri, kalp atışı) ve konuşma/müzik/gürültü ayrımı bunların başında gelmektedir. Değerlendirme metrikleri problemin türüne göre değişir: ikili sınıflandırmada F1 skoru ve AUC, çok sınıflı görevlerde doğruluk ve karışıklık matrisi, çok etiketli görevlerde ise mAP (mean Average Precision) tercih edilir. Google'ın AudioSet veri kümesi 632 ses kategorisi ve yaklaşık 2 milyon etiketli video klipiyle genel amaçlı ses sınıflandırma modellerinin eğitimini mümkün kılmaktadır. Ses sınıflandırma, yapay zeka uygulamalarında artmakta olan önemiyle akıllı ses işleme ekosisteminin temel bir bileşeni hâline gelmiştir.

Ses Sınıflandırma Nasıl Çalışır?

Ses sınıflandırma sürecinde ham ses sinyali önce ön işlemden geçirilir: Fourier dönüşümü veya kısa zamanlı Fourier dönüşümü (STFT) aracılığıyla frekans bileşenlerine ayrılır, ardından insan kulağının frekans algısını taklit eden mel ölçeğine dönüştürülerek mel-spektrogram elde edilir. Bu iki boyutlu görsel temsil üzerinde CNN modelleri uygulanır. Model eğitimi sırasında, etiketlenmiş ses veri kümesi kullanılarak ağın ağırlıkları optimize edilir. Tek etiketli problemlerde (bir sesin tek bir kategoriye ait olduğu durumlar) kategorik çapraz entropi kaybı kullanılırken, çok etiketli problemlerde (bir ses kaydında aynı anda birden fazla ses türünün bulunması) ikili çapraz entropi tercih edilir. Büyük ölçekli ön eğitimli modeller (YAMNet gibi), genel ses özelliklerini öğrenmiş ağırlıklarıyla transfer learning için güçlü bir başlangıç noktası sunar. Küçük veri kümelerinde bu modellerin son katmanları yeni kategorilere uyarlanarak (fine-tuning) etkili sonuçlar elde edilir.

Başlıca Modeller ve Veri Kümeleri

YAMNet

Google tarafından geliştirilen, AudioSet üzerinde eğitilmiş MobileNet tabanlı ses sınıflandırma modeli. 521 ses kategorisini tanır, transfer learning için yaygın kullanılır.

PANN (Pre-trained Audio Neural Networks)

AudioSet üzerinde ön eğitimli büyük kapasiteli ağlar ailesi. CNN14, ResNet38 gibi mimarilere dayalı güçlü ses temsil öğrenicileridir.

BEATs

Microsoft'un Transformer tabanlı ses ön eğitim modeli; self-supervised öğrenme ile güçlü genel ses temsilleri üretir ve birden fazla sınıflandırma kıyaslamasında üst sıralardadır.

AudioSet

Google'ın derlediği 632 kategorili, ~2 milyon 10 saniyelik YouTube klibinden oluşan çok etiketli ses veri kümesi. Alandaki en kapsamlı standart referans veri kümesidir.

Uygulama Alanları

  • check_circle Müzik Bilgi Geri Çağırımı: Müzik türü (pop, caz, klasik), enstrüman tespiti ve ruh hali sınıflandırması; akıllı müzik öneri sistemlerinin temel bileşeni.
  • check_circle Kentsel Ses Analizi: Şehir ortamlarındaki trafik, inşaat, alarm ve doğa seslerini izleyerek gürültü haritası oluşturma ve uyarı sistemleri geliştirme.
  • check_circle Tıbbi Ses Tanısı: Öksürük, nefes, kalp ve akciğer seslerinin sınıflandırılması; hastalık tespiti için düşük maliyetli tarama aracı olarak kullanılma potansiyeli.
  • check_circle Akıllı Ev ve IoT Güvenliği: Cam kırılma, silah sesi veya çocuk ağlaması gibi belirli ses olaylarını tespit eden gömülü cihaz uygulamaları.
  • check_circle Yaban Hayatı İzleme: Hayvan seslerinin pasif akustik izleme yöntemiyle tanınması; nesli tehlike altındaki türlerin uzaktan tespitinde kullanılma.

Sık Sorulan Sorular

  • check_circle Ses sınıflandırma ile konuşma tanıma arasındaki fark nedir?: Konuşma tanıma (ASR), ses içindeki sözcükleri metne dönüştürmeye odaklanırken ses sınıflandırma, sesin genel içeriğini (müzik, gürültü, doğa sesi gibi) kategorize eder. ASR dil modeli gerektirirken ses sınıflandırma genel bir örüntü tanıma görevidir.
  • check_circle Neden mel-spektrogram kullanılır?: Ham ses dalgası zaman serisinin direkt işlenmesi yerine mel-spektrogram tercih edilir çünkü insan kulağının logaritmik frekans algısını taklit eder, CNN için uygun iki boyutlu bir temsil sunar ve gürültüye karşı daha dayanıklıdır.
  • check_circle Çok etiketli ses sınıflandırma ne demektir?: Bir ses kaydında aynı anda birden fazla ses türü bulunabilir (örn: insan konuşması + arka planda müzik + trafik gürültüsü). Çok etiketli sınıflandırma, bu durumda her kategoriye bağımsız bir tahmin üretir; AudioSet bu tür problemlerin standardıdır.
  • check_circle mAP skoru nedir ve nasıl yorumlanır?: Mean Average Precision (mAP), çok etiketli sınıflandırma problemlerinde tüm kategorilerdeki ortalama kesinlik-geri çağırım eğrisi alanının ortalamasıdır. 0 ile 1 arasında değer alır; 1.0 mükemmel sınıflandırmayı temsil eder. AudioSet üzerinde en iyi modeller 0.45-0.50 mAP elde etmektedir.