tag Ses İşleme

Bu sayfada Ses İşleme etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Acoustic Model (Akustik Model)

Akustik Model, otomatik konuşma tanıma (ASR) sistemlerinin temel bileşenidir ve ses sinyalleri ile dilbilimsel birimler (fonemler, seslemler veya sözcükler) arasındaki istatistiksel ilişkiyi temsil eden bir modeldir. Konuşma işlemenin çekirdeğinde yer alan bu yapı, ham ses dalgalarını sayısal özelliklere (genellikle MFCC — Mel Frekansı Kepstral Katsayıları) dönüştürerek hangi sesbirime veya sözcüğe karşılık geldiğini olasılıksal olarak tahmin eder. Tarihsel olarak akustik modeller, Gizli Markov Modelleri (Hidden Markov Models — HMM) ve Gauss Karışım Modelleri (GMM) üzerine inşa edilmiştir. Bu klasik yaklaşımda her fonem, ayrı bir durum makinesiyle temsil edilir ve gözlem olasılıkları Gauss dağılımlarıyla hesaplanır. 1970'lerden 2000'lerin başına kadar konuşma tanımanın baskın paradigması olan bu yöntem, sınırlı veri ve hesaplama gücüyle bile kabul edilebilir sonuçlar vermiştir. Derin öğrenmenin yükselişiyle birlikte akustik modeller köklü bir dönüşüm geçirmiştir. Günümüz sistemlerinde Derin Sinir Ağları (DNN), Tekrarlayan Sinir Ağları (RNN), LSTM ve Transformer mimarileri, HMM ile hibrit ya da tamamen uçtan uca (end-to-end) biçimde kullanılmaktadır. OpenAI'nin Whisper modeli gibi son nesil sistemler, dil modelini ve akustik modeli tek bir Transformer mimarisi altında birleştirerek son derece yüksek doğruluk oranları elde etmektedir. Akustik modelin eğitimi için yüzlerce hatta binlerce saat etiketlenmiş ses kaydı gerekmektedir. Çevre gürültüsü, farklı aksanlar, mikrofon kalitesi ve konuşma hızı gibi faktörler tanıma doğruluğunu doğrudan etkiler. Transfer learning ve self-supervised learning yaklaşımları (wav2vec, HuBERT gibi modeller), etiketli veri ihtiyacını önemli ölçüde azaltmıştır. Akustik model çıkışı genellikle fonem olasılıkları dizisidir; bu olasılıklar dil modeli ile birleştirilerek nihai kelime transkripti üretilir.

arrow_forward