Mel Spectrogram (Mel Spektrogramı)

Mel Spectrogram, insan kulağının algı eğrisine göre düzenlenmiş sesin zaman-frekans görsel temsilidir.

Mel Spektrogramı, sesin zaman-frekans temsilini insan işitme algısını taklit eden mel ölçeğinde sunan bir ses özellik çıkarma yöntemidir. 'Mel' adı, 1937 yılında Stevens, Volkmann ve Newman tarafından geliştirilen ve insan kulağının farklı frekanslara nasıl tepki verdiğini modelleyen mel ölçeğinden (mel scale) gelir. İnsan kulağı düşük frekanslarda ince ayrımlar yaparken yüksek frekanslarda daha az hassastır; mel ölçeği bu perceptual özelliği matematiksel olarak yaklaşık olarak ifade eder. Mel spektrogramı üretmek için önce ses sinyali kısa pencereler (genellikle 25 ms) hâlinde Kısa Süreli Fourier Dönüşümü (STFT) ile spektrograma çevrilir. Ardından bu spektrogram, mel filtre bankasından geçirilerek doğrusal frekans ekseni mel ölçeğine dönüştürülür. Son adımda logaritmik ölçekleme (log-mel) uygulanarak insan işitme duyarlılığına benzer bir dinamik aralık elde edilir. Mel spektrogramları modern ses işleme ve konuşma tanıma sistemlerinde temel girdi formatı olarak kabul görür. OpenAI Whisper, 80 adet mel filtresi kullanan 25 ms pencerelere sahip log-mel spektrogramlarını ASR (Automatic Speech Recognition) için standart girdi biçimi olarak benimser. TTS (Text-to-Speech) sistemleri de mel spektrogramlarını ara temsil olarak kullanarak ses sentezi yapar; önce metnden mel spektrogramı tahmin edilir, ardından bir vocoder bu spektrogramu ham ses dalgasına çevirir. Ses sınıflandırma, duygu tanıma, müzik türü tespiti ve konuşmacı kimlik doğrulama gibi görevlerde CNN, LSTM ve Transformer modelleri mel spektrogramlarını görsel girdi gibi işler. Bu yaklaşım, raw waveform işlemeye kıyasla daha az hesaplama gerektirirken yüksek doğruluk sağlar. Günümüzde mel spektrogramı, ses yapay zekasının temel taşlarından biri kabul edilmektedir.

Mel Spektrogramı Nasıl Üretilir?

Mel spektrogramı üretmek üç adımdan oluşur. Birinci adımda ham ses sinyali Kısa Süreli Fourier Dönüşümü (STFT) ile belirli pencere aralıklarında (örn. 25 ms pencere, 10 ms adım) frekans bileşenlerine ayrılır; bu işlem standart bir spektrogram üretir. İkinci adımda spektrogramın frekans ekseni, mel filtre bankası (mel filterbank) adı verilen üçgen filtreler serisiyle yeniden örneklenir; filtreler düşük frekanslarda sıkışık, yüksek frekanslarda geniş aralıklı olup insan kulağının frekans çözünürlüğünü taklit eder. Üçüncü adımda logaritmik ölçekleme (log veya log10) uygulanarak gürültü ve zayıf sinyallerin dinamik aralığı sıkıştırılır; bu adım öğrenme için kritiktir çünkü insan kulağı ses yoğunluğuna logaritmik yanıt verir. Sonuçta elde edilen 2B matris (zaman × mel-frekans) doğrudan CNN veya Transformer modeline görüntü olarak beslenebilir.

Kullanım Alanları

  • check_circle Konuşma Tanıma (ASR): Whisper gibi modeller 80 mel bantlı log-mel spektrogramı birincil akustik girdi olarak kullanır; ham ses yerine mel özelliklerinin kullanılması bellek ve hesaplama yükünü önemli ölçüde azaltır.
  • check_circle Metin-Ses Dönüşümü (TTS): Tacotron 2 ve FastSpeech gibi TTS sistemleri metnden önce mel spektrogramı tahmin eder; ardından WaveGlow veya HiFi-GAN gibi vocoderlar bu spektrogramu gerçek ses dalgasına çevirir.
  • check_circle Ses Sınıflandırma: Müzik türü tespiti, çevre sesi sınıflandırması ve konuşmacı kimlik doğrulama gibi görevlerde CNN mimarileri mel spektrogramları görüntü gibi işleyerek yüksek doğruluk elde eder.
  • check_circle Duygu Tanıma: Konuşmadaki duygusal tonu (mutlu, üzgün, öfkeli) belirlemek için mel spektrogramı üzerinde eğitilen LSTM ve CNN modelleri kullanılır; sesin enerji dağılımı duygusal durum hakkında önemli ipuçları taşır.
  • check_circle Müzik Bilgi Çıkarımı: Akor tespiti, tempo analizi, nota transkripsiyonu ve melodi özetleme gibi MIR (Music Information Retrieval) görevlerinde mel spektrogramı standart girdi temsilidir.

Mel Spektrogramı ve İlgili Temsiller

Ham Dalga Formu

Doğrudan ses örneklerini kullanır. En fazla bilgiyi barındırır ancak yüksek örnekleme hızı modeli büyütür; modelin her şeyi sıfırdan öğrenmesi gerekir.

Mel Spektrogramı

İnsan algısına uyarlanmış zaman-frekans temsili. ASR ve TTS için de facto standart; model eğitiminde en yaygın kullanılan ses özeti.

MFCC

Mel Frekans Kepstrum Katsayıları — mel spektrogramının DCT ile sıkıştırılmış hali. Geleneksel ASR için kompakt ve etkilidir; derin öğrenme çağında mel spektrogramına göre daha az tercih edilir.

CQT (Sabit-Q Dönüşümü)

Müzik uygulamaları için optimize edilmiş logaritmik frekans temsili. Notalar arası aralıkları daha iyi yakalar; müzik bilgi çıkarımında mel spektrogramına rakip.

Sıkça Sorulan Sorular

  • check_circle Mel spektrogramı ile standart spektrogram arasındaki fark nedir?: Standart spektrogram doğrusal frekans ekseni kullanırken mel spektrogramı frekans eksenini insan kulağının algı eğrisine göre yeniden ölçekler. Bu sayede düşük frekanslarda daha ince ayrım, yüksek frekanslarda daha geniş bantlar elde edilir ve ses yapay zekası modelleri daha hızlı ve verimli öğrenir.
  • check_circle Kaç mel filtresi kullanmak gerekir?: Kullanım amacına göre değişir. Konuşma tanıma için 40–80 filtre tipik bir seçimdir (Whisper 80 kullanır). Müzik analizi için 128 veya daha fazla filtre tercih edilebilir. Filtre sayısı arttıkça frekans çözünürlüğü artar ancak hesaplama maliyeti de yükselir.
  • check_circle MFCC yerine neden mel spektrogramı tercih edilir?: MFCC, mel spektrogramının DCT ile boyut indirgenmesidir ve bazı bilgiyi kaybeder. Derin öğrenme modelleri (özellikle CNN ve Transformer) mel spektrogramının tüm bilgisini işleyebildiğinden MFCC'ye kıyasla daha yüksek başarım elde eder. MFCC'nin avantajı daha küçük vektör boyutu gerektiren klasik makine öğrenmesi yöntemlerinde ortaya çıkar.
  • check_circle Mel spektrogramı görüntü olarak mı kullanılır?: Evet. Mel spektrogramı 2B bir matris (zaman × frekans) olduğundan doğrudan gri tonlamalı görüntü olarak CNN'e beslenebilir. Bu yaklaşım ses görevlerini bilgisayarlı görü tekniklerine taşımayı mümkün kılar ve ImageNet üzerinde önceden eğitilmiş modellerin ses uygulamalarında kullanılmasına (transfer learning) olanak tanır.
  • check_circle Whisper mel spektrogramını nasıl kullanır?: Whisper, 16 kHz ses sinyalini 80 mel bantlı, 25 ms pencereli, 10 ms adımlı log-mel spektrograma dönüştürür. 30 saniyelik parçalar hâlinde bu spektrogramlar encoder-decoder Transformer mimarisine girdi olarak verilir. Log-mel dönüşümü Whisper'ın akustik veriyi etkin biçimde öğrenmesini sağlayan temel ön işleme adımıdır.