Mel Spectrogram (Mel Spektrogramı)
Mel Spektrogramı, sesin zaman-frekans temsilini insan işitme algısını taklit eden mel ölçeğinde sunan bir ses özellik çıkarma yöntemidir. 'Mel' adı, 1937 yılında Stevens, Volkmann ve Newman tarafından geliştirilen ve insan kulağının farklı frekanslara nasıl tepki verdiğini modelleyen mel ölçeğinden (mel scale) gelir. İnsan kulağı düşük frekanslarda ince ayrımlar yaparken yüksek frekanslarda daha az hassastır; mel ölçeği bu perceptual özelliği matematiksel olarak yaklaşık olarak ifade eder.
Mel spektrogramı üretmek için önce ses sinyali kısa pencereler (genellikle 25 ms) hâlinde Kısa Süreli Fourier Dönüşümü (STFT) ile spektrograma çevrilir. Ardından bu spektrogram, mel filtre bankasından geçirilerek doğrusal frekans ekseni mel ölçeğine dönüştürülür. Son adımda logaritmik ölçekleme (log-mel) uygulanarak insan işitme duyarlılığına benzer bir dinamik aralık elde edilir.
Mel spektrogramları modern ses işleme ve konuşma tanıma sistemlerinde temel girdi formatı olarak kabul görür. OpenAI Whisper, 80 adet mel filtresi kullanan 25 ms pencerelere sahip log-mel spektrogramlarını ASR (Automatic Speech Recognition) için standart girdi biçimi olarak benimser. TTS (Text-to-Speech) sistemleri de mel spektrogramlarını ara temsil olarak kullanarak ses sentezi yapar; önce metnden mel spektrogramı tahmin edilir, ardından bir vocoder bu spektrogramu ham ses dalgasına çevirir.
Ses sınıflandırma, duygu tanıma, müzik türü tespiti ve konuşmacı kimlik doğrulama gibi görevlerde CNN, LSTM ve Transformer modelleri mel spektrogramlarını görsel girdi gibi işler. Bu yaklaşım, raw waveform işlemeye kıyasla daha az hesaplama gerektirirken yüksek doğruluk sağlar. Günümüzde mel spektrogramı, ses yapay zekasının temel taşlarından biri kabul edilmektedir.