Mel Spektrogramı Nedir? Ses Yapay Zekasında Temel Temsil

Mel Spektrogramı Nasıl Üretilir?

Mel spektrogramı üretmek üç adımdan oluşur. Birinci adımda ham ses sinyali Kısa Süreli Fourier Dönüşümü (STFT) ile belirli pencere aralıklarında (örn. 25 ms pencere, 10 ms adım) frekans bileşenlerine ayrılır; bu işlem standart bir spektrogram üretir. İkinci adımda spektrogramın frekans ekseni, mel filtre bankası (mel filterbank) adı verilen üçgen filtreler serisiyle yeniden örneklenir; filtreler düşük frekanslarda sıkışık, yüksek frekanslarda geniş aralıklı olup insan kulağının frekans çözünürlüğünü taklit eder. Üçüncü adımda logaritmik ölçekleme (log veya log10) uygulanarak gürültü ve zayıf sinyallerin dinamik aralığı sıkıştırılır; bu adım öğrenme için kritiktir çünkü insan kulağı ses yoğunluğuna logaritmik yanıt verir. Sonuçta elde edilen 2B matris (zaman × mel-frekans) doğrudan CNN veya Transformer modeline görüntü olarak beslenebilir.

Kullanım Alanları

check_circle Konuşma Tanıma (ASR): Whisper gibi modeller 80 mel bantlı log-mel spektrogramı birincil akustik girdi olarak kullanır; ham ses yerine mel özelliklerinin kullanılması bellek ve hesaplama yükünü önemli ölçüde azaltır.
check_circle Metin-Ses Dönüşümü (TTS): Tacotron 2 ve FastSpeech gibi TTS sistemleri metnden önce mel spektrogramı tahmin eder; ardından WaveGlow veya HiFi-GAN gibi vocoderlar bu spektrogramu gerçek ses dalgasına çevirir.
check_circle Ses Sınıflandırma: Müzik türü tespiti, çevre sesi sınıflandırması ve konuşmacı kimlik doğrulama gibi görevlerde CNN mimarileri mel spektrogramları görüntü gibi işleyerek yüksek doğruluk elde eder.
check_circle Duygu Tanıma: Konuşmadaki duygusal tonu (mutlu, üzgün, öfkeli) belirlemek için mel spektrogramı üzerinde eğitilen LSTM ve CNN modelleri kullanılır; sesin enerji dağılımı duygusal durum hakkında önemli ipuçları taşır.
check_circle Müzik Bilgi Çıkarımı: Akor tespiti, tempo analizi, nota transkripsiyonu ve melodi özetleme gibi MIR (Music Information Retrieval) görevlerinde mel spektrogramı standart girdi temsilidir.

Mel Spektrogramı ve İlgili Temsiller

Ham Dalga Formu

Doğrudan ses örneklerini kullanır. En fazla bilgiyi barındırır ancak yüksek örnekleme hızı modeli büyütür; modelin her şeyi sıfırdan öğrenmesi gerekir.

Mel Spektrogramı

İnsan algısına uyarlanmış zaman-frekans temsili. ASR ve TTS için de facto standart; model eğitiminde en yaygın kullanılan ses özeti.

MFCC

Mel Frekans Kepstrum Katsayıları — mel spektrogramının DCT ile sıkıştırılmış hali. Geleneksel ASR için kompakt ve etkilidir; derin öğrenme çağında mel spektrogramına göre daha az tercih edilir.

CQT (Sabit-Q Dönüşümü)

Müzik uygulamaları için optimize edilmiş logaritmik frekans temsili. Notalar arası aralıkları daha iyi yakalar; müzik bilgi çıkarımında mel spektrogramına rakip.

Sıkça Sorulan Sorular

check_circle Mel spektrogramı ile standart spektrogram arasındaki fark nedir?: Standart spektrogram doğrusal frekans ekseni kullanırken mel spektrogramı frekans eksenini insan kulağının algı eğrisine göre yeniden ölçekler. Bu sayede düşük frekanslarda daha ince ayrım, yüksek frekanslarda daha geniş bantlar elde edilir ve ses yapay zekası modelleri daha hızlı ve verimli öğrenir.
check_circle Kaç mel filtresi kullanmak gerekir?: Kullanım amacına göre değişir. Konuşma tanıma için 40–80 filtre tipik bir seçimdir (Whisper 80 kullanır). Müzik analizi için 128 veya daha fazla filtre tercih edilebilir. Filtre sayısı arttıkça frekans çözünürlüğü artar ancak hesaplama maliyeti de yükselir.
check_circle MFCC yerine neden mel spektrogramı tercih edilir?: MFCC, mel spektrogramının DCT ile boyut indirgenmesidir ve bazı bilgiyi kaybeder. Derin öğrenme modelleri (özellikle CNN ve Transformer) mel spektrogramının tüm bilgisini işleyebildiğinden MFCC'ye kıyasla daha yüksek başarım elde eder. MFCC'nin avantajı daha küçük vektör boyutu gerektiren klasik makine öğrenmesi yöntemlerinde ortaya çıkar.
check_circle Mel spektrogramı görüntü olarak mı kullanılır?: Evet. Mel spektrogramı 2B bir matris (zaman × frekans) olduğundan doğrudan gri tonlamalı görüntü olarak CNN'e beslenebilir. Bu yaklaşım ses görevlerini bilgisayarlı görü tekniklerine taşımayı mümkün kılar ve ImageNet üzerinde önceden eğitilmiş modellerin ses uygulamalarında kullanılmasına (transfer learning) olanak tanır.
check_circle Whisper mel spektrogramını nasıl kullanır?: Whisper, 16 kHz ses sinyalini 80 mel bantlı, 25 ms pencereli, 10 ms adımlı log-mel spektrograma dönüştürür. 30 saniyelik parçalar hâlinde bu spektrogramlar encoder-decoder Transformer mimarisine girdi olarak verilir. Log-mel dönüşümü Whisper'ın akustik veriyi etkin biçimde öğrenmesini sağlayan temel ön işleme adımıdır.