category Ses ve Konuşma

Ses tanıma ve sentezleme teknolojileri

Acoustic Model (Akustik Model)

Akustik Model, otomatik konuşma tanıma (ASR) sistemlerinin temel bileşenidir ve ses sinyalleri ile dilbilimsel birimler (fonemler, seslemler veya sözcükler) arasındaki istatistiksel ilişkiyi temsil eden bir modeldir. Konuşma işlemenin çekirdeğinde yer alan bu yapı, ham ses dalgalarını sayısal özelliklere (genellikle MFCC — Mel Frekansı Kepstral Katsayıları) dönüştürerek hangi sesbirime veya sözcüğe karşılık geldiğini olasılıksal olarak tahmin eder. Tarihsel olarak akustik modeller, Gizli Markov Modelleri (Hidden Markov Models — HMM) ve Gauss Karışım Modelleri (GMM) üzerine inşa edilmiştir. Bu klasik yaklaşımda her fonem, ayrı bir durum makinesiyle temsil edilir ve gözlem olasılıkları Gauss dağılımlarıyla hesaplanır. 1970'lerden 2000'lerin başına kadar konuşma tanımanın baskın paradigması olan bu yöntem, sınırlı veri ve hesaplama gücüyle bile kabul edilebilir sonuçlar vermiştir. Derin öğrenmenin yükselişiyle birlikte akustik modeller köklü bir dönüşüm geçirmiştir. Günümüz sistemlerinde Derin Sinir Ağları (DNN), Tekrarlayan Sinir Ağları (RNN), LSTM ve Transformer mimarileri, HMM ile hibrit ya da tamamen uçtan uca (end-to-end) biçimde kullanılmaktadır. OpenAI'nin Whisper modeli gibi son nesil sistemler, dil modelini ve akustik modeli tek bir Transformer mimarisi altında birleştirerek son derece yüksek doğruluk oranları elde etmektedir. Akustik modelin eğitimi için yüzlerce hatta binlerce saat etiketlenmiş ses kaydı gerekmektedir. Çevre gürültüsü, farklı aksanlar, mikrofon kalitesi ve konuşma hızı gibi faktörler tanıma doğruluğunu doğrudan etkiler. Transfer learning ve self-supervised learning yaklaşımları (wav2vec, HuBERT gibi modeller), etiketli veri ihtiyacını önemli ölçüde azaltmıştır. Akustik model çıkışı genellikle fonem olasılıkları dizisidir; bu olasılıklar dil modeli ile birleştirilerek nihai kelime transkripti üretilir.

arrow_forward mic

Speech-to-Text (ASR) (Sesten Metne (Otomatik Konuşma Tanıma))

Speech-to-Text veya Otomatik Konuşma Tanıma (ASR), mikrofondan veya ses dosyasından gelen konuşulmuş dili dinleyip analiz ederek kelime kelime yazıya döken (deşifre eden) yapay zeka teknolojisidir. Siri, Google Asistan ve otomatik YouTube altyazılarının arkasındaki güçtür.

arrow_forward volume_up

Text-to-Speech (TTS) (Metinden Sese)

Text-to-Speech (TTS), bilgisayar sistemlerinin yazılı metinleri anlayarak bunları doğal, akıcı ve insani bir ses tonuyla (sözlü olarak) okumasını sağlayan konuşma sentezleme teknolojisidir. Modern TTS sistemleri derin öğrenme kullanarak sadece kelimeleri değil; vurguyu, nefes alışları ve duyguyu da kopyalar.

arrow_forward